朴素贝叶斯和SvM做中文文本分类,k折交叉验证

最新推荐文章于 2023-01-18 10:00:56 发布

光英的记忆

最新推荐文章于 2023-01-18 10:00:56 发布

阅读量2.2k

点赞数 5

分类专栏： NLP 文章标签：ＳＶＭ　朴素贝叶斯文本分类 K者交叉验证

本文链接：https://blog.csdn.net/qq_29678299/article/details/103517546

版权

本文探讨了使用朴素贝叶斯和SVM进行中文文本分类的方法，详细介绍了k折交叉验证的实施过程，并对两种算法进行了封装成类的实践，以提升模型的评估和应用效率。通过http://www.startitedu.com/#/可以获取更多相关内容。

摘要由CSDN通过智能技术生成

"""
朴素贝叶斯
我们试试用朴素贝叶斯完成一个中文文本分类器，一般在数据量足够，数据丰富度够的情况下，用朴素贝叶斯完成这个任务，准确度还是很不错的。

机器学习的算法要取得好效果，离不开数据，咱们先把数据加载进来看看。

准备数据
准备好数据，我们挑选 科技、汽车、娱乐、军事、运动 总共5类文本数据进行处理。
"""
import jieba
import pandas as pd
df_technology = pd.read_csv("./data/technology_news.csv", encoding='utf-8')
df_technology = df_technology.dropna()

df_car = pd.read_csv("./data/car_news.csv", encoding='utf-8')
df_car = df_car.dropna()

df_entertainment = pd.read_csv("./data/entertainment_news.csv", encoding='utf-8')
df_entertainment = df_entertainment.dropna()

df_military = pd.read_csv("./data/military_news.csv", encoding='utf-8')
df_military = df_military.dropna()

df_sports = pd.read_csv("./data/sports_news.csv", encoding='utf-8')
df_sports = df_sports.dropna()

technology = df_technology.content.values.tolist()[1000:21000]
car = df_car.content.values.tolist()[1000:21000]
entertainment = df_entertainment.content.values.tolist()[:20000]
military = df_military.content.values.tolist()[:20000]
sports = df_sports.content.values.tolist()[:20000]

"""
分词与中文文本处理
停用词
"""
stopwords=pd.read_csv("data/stopwords.txt",index_col=False,quoting=3,sep="\t",names=['stopword'], encoding='utf-8')
stopwords=stopwords['stopword'].values

def preprocess_text(content_lines, sentences, category):
    for line in content_lines:
        try:
            segs=