日常数据分析中,词频分析是一个很好的文本挖掘方法,这篇文章说说词频分析方法。 这里选用京东商场中购买手机的部分数据信息,利用jieba词库对购物评论进行分词,提取客户群体对手机的关注点。 数据集来源: https://www.kesci.com/home/project/5ece06fb12fba90036cf26bd/dataset
1.导出所需库
#导入所需基本包
import pandas as pd
# 导入扩展库
import re # 正则表达式库
import jieba # 结巴分词
import jieba.posseg # 词性获取
import collections # 词频统计库
2.导入文件
#导入数据集
data = pd.read_csv('C:/Users/dwhyx/Downloads/data/京东评论数据.csv')
#查看数据基本情况
data.info()