基于python的朴素贝叶斯新闻分类

最新推荐文章于 2024-07-23 14:36:35 发布

源码空间站11

最新推荐文章于 2024-07-23 14:36:35 发布

阅读量375

点赞数 8

文章标签： python 分类开发语言

本文链接：https://blog.csdn.net/laoman456/article/details/134763590

版权

研究目的（选题的意义和预期应用价值）

近年来，随着计算机软硬件技术和互联网的高速发展，数据呈爆炸性增长，“信息过载” 问题越来越严重，全部依赖人来处理和分析的传统方式，面对海量信息的局面显得越来越捉襟见肘。由于新闻文本数量巨大，主题多样，用户想方便的获取符合自己个性化的新闻内容非常困难。传统的搜索引擎必须由用户提供明确关键词，才能实现对信息的检索和过滤。面对爆炸的数据，需要使用恰当的方法对文本进行分类，方便用户查看特定类别的新闻。

与本课题相关的国内外研究现状（文献综述），预计可能创新的方面

与本课题相关的国内外研究现状：

当前机器学习分类算法主流的有svm、朴素贝叶斯、KNN等，支持向量机是一种有监督的学习方法，即已知训练点的类别，求训练点和类别之间的对应关系，以便将训练集按照类别分开，或者是预测新的训练点所对应的类别。它主要针对小样本数据进行学习、分类和预测（有时也叫回归）的一种方法，能解决神经网络不能解决的过学习问题。邻近算法，或者说K最近邻（KNN，K-NearestNeighbor）分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻，就是K个最近的邻居的意思，说的是每个样本都可以用它最接近的K个邻近值来代表。近邻算法就是将数据集合中每一个记录进行分类的方法.朴素贝叶斯分类是一种十分简单的分类算法，叫它朴素贝叶斯分类是因为这种方法的思想很朴素，对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别，朴素贝叶斯算法是由贝叶斯定理发展而来，理论上来说，朴素贝叶斯分类算法与其他分类算法相比误差较小，在各个属性之间的相关性较小的情况下，朴素贝叶斯算法能达到较好的分类效果。相比较svm、knn，朴素贝叶斯最大的优点就是分类稳定，适合小规模数据和增量式训练，对缺失数据不敏感。故本课题主要采用朴素贝叶斯算法进行分类

研究的主要内容与可行性分析

研究的主要内容：

采用网上公开新闻数据集，使用朴素贝叶斯算法进行新闻分类

研究的可行性分析：

1用于训练的新闻文本数据可以从开源网站获取。

2 朴素贝叶斯算法的研究已经非常成熟可用

本课题研究的主要方法和步骤

主要方法：

从网上获取公开新闻数据集，然后进行数据清洗、入库。使用朴素贝叶斯算法进行新闻数据分类

步骤：

网上寻找开源数据集或者爬取各大网站新闻数据。
进行数据清洗、入库。
使用朴素贝叶斯算法进行新闻数据分类

【基于Python的机器学习的新闻分类系统】 https://www.bilibili.com/video/BV1L5411w7Gy/?share_source=copy_web&vd_source=3d18b0a7b9486f50fe7f4dea4c24e2a4

源码空间站11

关注

8
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
基于python的朴素贝叶斯新闻分类

近邻算法就是将数据集合中每一个记录进行分类的方法.朴素贝叶斯分类是一种十分简单的分类算法，叫它朴素贝叶斯分类是因为这种方法的思想很朴素，对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别，朴素贝叶斯算法是由贝叶斯定理发展而来，理论上来说，朴素贝叶斯分类算法与其他分类算法相比误差较小，在各个属性之间的相关性较小的情况下，朴素贝叶斯算法能达到较好的分类效果。面对爆炸的数据，需要使用恰当的方法对文本进行分类，方便用户查看特定类别的新闻。研究的主要方法和步骤。
复制链接

扫一扫