![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据项目
tcl890329
这个作者很懒,什么都没留下…
展开
-
手写朴素贝叶斯NB算法,对文章进行分类
上篇文章写了对数据的整理和分词,接下来对整理好的数据进行训练,运用的算法先从最简单的NB算法开始,首先说下NB算法的原理。NB算法的公式P(yi|X)= P(X|yi)*P(yi)/P(X),X表示待测的一篇文章,yi表示分类标签,P(yi|X)表示这篇文章属于哪类的概率, P(X|yi)表示为指定类别下产生这篇文章的概率,P(yi)每个类别的先验概率,P(X)这篇文章存在的概率为1。根据极大似然估计,P(X|yi) =ΠP(xi|yi),xi为文章中包含的单词,P(xi|yi)表示为指定类别下文章中每..原创 2020-10-21 17:57:05 · 316 阅读 · 0 评论 -
文章分类项目前言
最近刚学完大数据的有关知识,刚好下载到一份文章分类的数据库,尝试独立进行文章分类。数据库中的数据,分为14个类别。每个类别中包含多篇文章。接下来将逐步完成文章分类的项目实战,后面会详细介绍应用的知识和算法。...原创 2020-10-14 14:14:05 · 119 阅读 · 0 评论 -
第一部数据整理和分词
拿到分类好的文章数据后,对数据库进行整理。将所有文章汇聚到一起,格式为:标签/t内容;原创 2020-10-16 15:09:42 · 316 阅读 · 0 评论