一、jieba库
1、导入库
import jieba
import jieba.posseg as psg
2、筛选特定特征的数据
data.loc[data['new']=='同款',['商品名称']] #定位某一个条件
str(data1['商品名称'][0]) #在规定范围内找出符合条件的数据
3、单词分词
data1=pd.DataFrame(data.loc[data['new']=='同款',['商品名称']])
xs=psg.lcut(str(data1['商品名称'][2]))
for x in xs:
print(x.word) #x.flag为词性,word为名词=“关键词”
将分词存储为关键词,在写入数据表中,进行后续的关键词统计
4、添加jieba库的新词
1)添加单个新词:jieba.add_word()
2)批量添加新词:
txt=“路径/txt的名称.txt”
jieba.load_userdict(txt)
二、zhon
对文本内容有要求,不好用