gensim是自然语言处理的强大的工具包。
1.安装gensim
使用pip安装gensim,如果安装缓慢,建议换个安装源。
pip install gensim
2.数据预处理
2.1jieba分词
利用pandas库读取数据,apply方法批量处理。
def preprocessData(path='D:/Py/Data/comment5_1.txt', sep=' ',
names=['sightName','emotion','comment']):
df_all_data = pd.read_csv(path, sep=sep, names=names, escapechar='\\')
tqdm.pandas(desc='分词进度', ncols=100)
df_all_data