![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
sklearn
AI算法工程师YC
Work together and make progress together
展开
-
朴素贝叶斯的三个常用模型:高斯(GaussianNB)、多项式(multinomial model)、伯努利(Bernoulli model)
文本分类在文本分类中,假设我们有一个文档d∈X,X是文档向量空间(document space),和一个固定的类集合C={c1,c2,…,cj},类别又称为标签。显然,文档向量空间是一个高维度空间。我们把一堆打了标签的文档集合<d,c>作为训练样本,<d,c>∈X×C。例如:<d,c>={Beijing joins the World Trade Organ...原创 2019-11-14 12:13:41 · 6529 阅读 · 1 评论 -
利用贝叶斯分类器对fetch_20newsgroups数据集进行分类
步骤1 数据采集2 特征提取3 模型训练4 模型评估20 Newsgroups数据集介绍20newsgroups数据集是用于文本分类、文本挖据和信息检索研究的国际标准数据集之一。数据集收集了大约20,000左右的新闻组文档,均匀分为20个不同主题的新闻组集合。一些新闻组的主题特别相似(e.g. comp.sys.ibm.pc.hardware/ comp.sys.mac.hardwar...原创 2019-11-14 11:28:43 · 3940 阅读 · 0 评论