贝叶斯新闻分类demo（Python）

最新推荐文章于 2022-01-13 20:47:35 发布

妄念驱动

最新推荐文章于 2022-01-13 20:47:35 发布

阅读量7.4k

点赞数 1

分类专栏：机器学习 python 算法文章标签：算法机器学习 python

本文链接：https://blog.csdn.net/hx2017/article/details/77971754

版权

本文演示了使用Python进行贝叶斯新闻分类的过程，包括数据来源、结巴分词、TF-IDF关键词提取和LDA主题模型。实验结果显示，关键词能有效概括新闻内容，分类器如MultinomialNB能达到约80%的准确率。

摘要由CSDN通过智能技术生成

#pip install jieba
import pandas as pd
import jieba

数据源：http://www.sogou.com/labs/resource/ca.php

df_news = pd.read_table('./data/val.txt',names=['category','theme','URL','content'],encoding='utf-8')
df_news = df_news.dropna()
df_news.head()

这里写图片描述

df_news.shape

(5000, 4)

分词：使用结吧分词器

content = df_news.content.values.tolist()
print (content[1000])

content_S = []
for line in content:
    current_segment = jieba.lcut(line)
    if len(current_segment) > 1 and current_segment != '\r\n': #换行符
        content_S.append(current_segment)

content_S[1000]

这里写图片描述

df_content=pd.DataFrame({
  'content_S':content_S})
df_content.head()

这里写图片描述

# 停词表
stopwords=pd.read_csv("stopwords.txt",index_col=False,sep="\t",quoting=3,names=['stopword'], encoding='utf-8')
stopwords.head(20)

这里写图片描述

# 去掉停用词

最低0.47元/天解锁文章

妄念驱动

关注

1
点赞
踩
21

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录