NLTK 有着整套自然语言处理的工具,从分词到实体识别,从情感分类到句法分析,完整而丰富,功能强大。
但是分词功能仅适用于英文,对于中文分词还需要专门的中文分词工具包处理。因此本例使用结巴分词
import pandas as pd
import jieba
df = pd.read_csv('bad_cmmnt_detl.csv')
df.shape
#查看数据集的维度
df.shape
Out[87]:(8813, 2)
利用结巴进行中文分词
def cutword(x):
seg = jieba.cut(x)
return ' '.join(seg)
df['cut_word']=df.cntnt.apply(cutword)
由分好词的句子生成词典
text = df['cut_word'].values
textnltk = []
for sent in text:
temp = [w for w in sent.split()]
textnltk.extend(temp)
#利用set(txtnltk)可以看到词典的实际单词个数