调用sklearn的NB模型来实现文章分类

最新推荐文章于 2022-06-24 20:25:24 发布

tcl890329

最新推荐文章于 2022-06-24 20:25:24 发布

阅读量735

点赞数 1

分类专栏：文章分类文章标签：机器学习自然语言处理

本文链接：https://blog.csdn.net/tcl890329/article/details/109357648

版权

文章分类专栏收录该内容

2 篇文章 0 订阅

订阅专栏

在上一篇文章里面，我自己手写了一个朴素贝叶斯算法（NB），进行了训练和验证，并且通过在网上随便找一篇文章进行测试，能够正确得到文章类型结果。这篇文章中，我打算采用sklearn库，直接调用NB模型进行训练和预测。

1、首先加载sklearn的库；train_test_split--对数据进行分割，分成训练集和测试集。TfidfVectorizer--生成文章单词的TFIDF矩阵。MultinomialNB--sklearn的NB模型。

from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import TfidfVectorizer

其次，准备数据集，读取分词后的文章数据集，加载列表words和label中，通过train_test_split按照4:1的比例进行切分。

接下来，对切分好的训练集进行向量化，使用TfidfVectorizer，求出文章单词的tfidf，构建单词向量。然后通过MultinomialNB模型对训练集的向量数据进行训练，并且保存TfidfVectorizer和MultinomialNB模型。

最后，读取测试集中的文章数据，通过TfidfVectorizer模型，进行测试集向量化，放入MultinomialNB模型中进行预测。

2、同样，拿出上篇文章中测试用例，通过建立好的模型进行预测，看下这篇新闻文章归属于哪类。

在pycharm远程运行下得到预测结果属于“娱乐”类。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

tcl890329

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

朴素贝叶斯算法对文本的分类

cccccccaaaaaaaaa的博客

04-26

319

1.案例 2.为了防止像tokyo这种为零的情况，因此引入拉普拉斯平滑系数 8是在C中所有词个数，6是在所有特征词个数，一个类别只算一次 API

sklean实现文本分类

cy_believ的博客

03-24

345

（这里是恶意代码的分类） 1.特征提取与向量转换文本形式，对所有文档构建词典，然后为每一篇文档建立一个TF-IDF方法构建的向量。首先把文本转换为向量的形式，采用TF-IDF特征提取法，把文本转换为向量形式。核心代码如下：对下述代码的解释：（1）CountVectorizer类会将文本中的词语转换为词频矩阵；其是一个支持文本中词语计数的函数库，我们可以使用其中的函数来分析文本...

参与评论您还未登录，请先登录后发表或查看评论

sklearn svm实现文本分类入门

Aye

09-22

1万+

正在学习sklearn , 实验室项目需要实现一些文本的分类的功能。 sklearn提供了许多机器学习方面使用的到的写好的工具。其中也包括分类器。sklearn在这里不作介绍。有官网，有博客，也正在学习中最开始是参照着这片文章： https://segmentfault.com/a/1190000002472791 用的是朴素贝叶斯，文本向量化用的是HashingVectorizer 实现过

朴素贝叶斯算法 - 文本分类

sinat_15355869的博客

03-30

414

GitHub: https://github.com/yjfiejd/bayes_text_classification【基本概念】转：贝叶斯基本概念知识参考：#知识背景：转自阮一峰：贝叶斯推断及其互联网应用（一）：定理简介转：如何理解贝叶斯：怎样用非数学语言讲解贝叶斯定理（Bayes's theorem）？转：如何理解条件概率：如何理解条件概率转：公式请参考：朴素贝叶斯分类器（Naive Bay...

朴素贝叶斯算法实现文本分析

weixin_50022322的博客

05-06

577

朴素贝叶斯算法实现文本分析最近在公司做的一个用户发言分析的项目中用到了文本分析,就产生一个对之前所学的文本分析方法做一个总结,今天主要想讲一讲朴素贝叶斯算法实现的文本分析. 朴素贝叶斯: 在学习机器学习算法之前,必须明确的一点就是,任何一个算法都是基于一定的统计学方法对一个事件进行预估,并按照最大概率假设这件事的结果.朴素贝叶斯算法或者说朴素贝叶斯分类器就是基于朴素贝叶斯定理来实现的. 贝叶斯定理:贝叶斯定理是描述两个事件(事件A, 事件B)之间条件概率的定理. 有一个公式说明了这个定理:

python sklearn常用分类算法模型的调用

12-25

本文实例为大家分享了python sklearn分类算法模型调用的具体代码，供大家参考，具体内容如下实现对’NB’, ‘KNN’, ‘LR’, ‘RF’, ‘DT’, ‘SVM’,’SVMCV’, ‘GBDT’模型的简单调用。 # coding=gbk ...

几种sklearn库直接实现分类算法

weixin_43129841的博客

10-02

2562

机器学习入门——直接调用sklearn实现几种简单算法刚学习机器学习，希望大佬们勿喷，望指点几种分类算法针对鸢尾花数据的分析 1. LR线性回归分类算法 # 引入数据集，sklearn包含众多数据集 from sklearn import datasets from sklearn.model_selection import train_test_split from sklearn.li...

利用sklearn 朴素贝叶斯进行评论短语的分类

lunseqing5357的博客

05-14

787

功能：对评论短语，比如一个文章下的评论短语进行分类通过或者删除，也就是是垃圾、不是垃圾。工具：Spyder，jieba分词，numpy，joblib，sklearn程序：# -*- coding: utf-8 -*-"""Created on Mon May 14 10:12:38 2018@author: Administrator"""import codecsimport jiebafro...

Sklearn,xgboost机器学习多分类实验

jaylenzhang的博客

03-08

8305

多分类是一个机器学习的常见任务，本文将基于复旦大学中文文本分类语料，使用sklearn和xgboost来进行多分类实验。

使用sklearn在python中创建用于分类的机器学习模型的简要介绍

weixin_26704853的博客

08-19

382

Machine learning classification is very useful in many ways including screening people for diseases in the field of medicine, classifying cosmic objects in the field of astronomy, financial fraud dete...

朴素贝叶斯算法源码

08-14

朴素贝叶斯算法源码 ICTCLAS中文分词for Lucene.Net接口代码(实现Analyzer)

sklearn-matlab：使用scikit-learn语法在Matlab中进行机器学习

02-03

sklearn-matlab：使用scikit-learn语法在Matlab中进行机器学习

SKlearn工具箱matlab版

10-31

SKlearn工具箱matlab版本，可供调试，喜欢的科研下载，用于深度学习，机器学习

文章数据分析与自动分类

weixin_51749229的博客

04-12

791

sklearn支持向量机（SVM）多分类问题

热门推荐

Yvesx的博客

12-15

2万+

模型 sklearn.svm中的支持向量机： Classify：SVC、nuSVC、LinearSVC Regression：SVR、nuSVR、LinearSVR OneClassSVM 本文采用Classify系列，classify三个模型的区别；参数详解预处理 import pandas as pd path = "../Data/classify.csv" rawdata = pd.read_csv(path) X = rawdata.iloc[:,:13] Y = rawdata.iloc[:

分类算法-NB（NaiveBeyesian Classification）分类器及AUC效果评估

Jameslvt的博客

07-31

6113

在整个机器学习领域，有很多算法，除了与业务相关的推荐算法，还有分类，回归，聚类算法。其实，回归算法中也有类似分类算法，回归算法在机器学习中就是为了解决分类问题。至于这个分类模型有什么用，我们在机器学习过程中：定义一个对象X，将其划分到定义的某个类别Y中，输出是某个类别，例如新闻类，军事类这里分类我们说一下，分类中有二分类（邮件垃圾邮件）、多分类（网页分类），那么分类算法解决的流程...

信息检索——NB算法的训练及分类过程实现

clown0004的博客

06-24

1081

信息检索——NB算法的训练及分类过程实现

分类算法之NB

hzh36的博客

06-26

622

以文本分类为例，通过文本分类的过程，学习NB算法的流程及实现方法。极大似然估计下的NB 贝叶斯估计下的NB 用极大似然估计可能出现所要估计的概率值为0的情况（测试集中的词在样本集中没出现过）。这时会影响到后验概率的计算结果，使分类产生偏差。解决这一问题的方法是采用贝叶斯估计。贝叶斯估计下的的条件概率贝叶斯估计下的的先验概率两种NB的模型封装极大似然估计下的NB模型封装贝叶斯估计下的NB模型封装 ...

#第26篇分享：一个文本分类的数据挖掘（python语言：sklearn 朴素贝叶斯NB）（2）

weixin_46008828的博客

03-07

512

②.朴素贝叶斯算法：(朴素贝叶斯分类常用于文本分类，尤其是对于英文等语言来说，分类效果很好；它常用于垃圾文本过滤、情感预测、推荐系统等) ①算法概念：（小数据，以概率计算，假设特征之间独立）朴素贝叶斯（NB）属于生成式模型（即需要计算特征与类的联合概率分布），计算过程非常简单，只是做了一堆计数。NB有一个条件独立性假设，即在类已知的条件下，各个特征之间的分布是独立的。 ②.算法思路：NB 属于娱乐的概率是0，显然是不太好的，所以出现了拉普拉斯平滑系数，就是加上个系数，不让他的值是0：拉普拉斯平滑（模块内

对一段长文本的内容进行分类，使用python实现