【实例简介】
1.应用朴素贝叶斯算法,对Content 数据集进行分类
1)对数据进行清洗
2)基于给定的词库和停止词,进行文本切词
3)建立NB模型
【实例截图】
【核心代码】
import pandas as pd
# 读入评论数据
evaluation = pd.read_excel(r'Contents.xlsx')
# 查看数据前10行
print(evaluation.head(10))
# 运用正则表达式,将评论中的数字和英文去除
evaluation.Content = evaluation.Content.str.replace('[0-9a-zA-Z]','')
evaluation.head()
# 导入第三方包
impor