文本分析基础练手题

本文介绍了使用Python进行文本分析的基础步骤,包括预处理、分词、情感分析等关键环节,适合初学者入门练习。
摘要由CSDN通过智能技术生成
 coding: utf-8

# 1, 写一个名为 test1_count()的函数,函数的第一个参数为一个文本文件的位置,如‘data/document1.txt’。要求函数的功能包括: 
# 1) 计算并打印出文本文件中所包含的词数(number of words), 
# 2) 打印出不重复的词的数量(the number of unique words), 
# 3) 打印出文本的行数, 
# 4) 打印在文本中出现次数最多的十个词,及其出现的次数。 
# 5) 返回词频列表,即文本中出现的所有词及每个词在文本中对应出现的次数 

# In[1]:

import os
print ("%s" % os.getcwd())


# In[ ]:

#测试区间




# In[61]:

import string
def test1_count(a):
    with open(a) as ff:
        t=ff.readlines()
    print(t)
    # 1)统计单词数
    words=0
    for i in range(len(t)): 
        t[i]=t[i].strip()  #去掉换行符\n
        t[i]=''.join([j for j in t[i] if j not in string.punctuation]) #去标点
        words=words+(t[i].count(' ')+1) #以空格为分割符,统计单词数
    print(t)
    print('所有单词数:words =',words) #所有单词数

    # 2)打印不重复单词数
    all=[]
    for i in range(len(t)):
        k=t[i].split(" ")
        for j in range(len(k)):
            all.append(k[j])  #创建了一个新的列表,解开原来列表的嵌套,把所有词放在一个为all的列表中
    ndp_all=list(set(all))   #利用set不重复的特征,将所有不重复元素保存在ndp_all这个列表中
    ndp_words=len(ndp_all)  
    print('所有不重复单词数:ndp_words =',ndp_words) #打印不重复单词数

    
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值