基于多项式贝叶斯的垃圾短信识别

最新推荐文章于 2022-01-14 12:49:16 发布

急着吃饭的李先生

最新推荐文章于 2022-01-14 12:49:16 发布

阅读量349

点赞数

分类专栏：项目实战

本文链接：https://blog.csdn.net/weixin_43117447/article/details/102531516

版权

该博客介绍了一种基于多项式贝叶斯的垃圾短信识别方法。首先将标签转换为0和1，然后统计正常邮件和垃圾邮件数量，发现正常邮件更多。接着分析文本长度分布并绘制直方图，发现大多数文本长度在175字内。接着，利用CountVectorizer将文本转化为向量，采用MultinomialNB进行训练，得到了模型在测试数据上的准确率。最后，通过混淆矩阵评估分类效果，以便对错误分类进行调整。

摘要由CSDN通过智能技术生成

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

# 读取文件
df = pd.read_table("./SMSSpamCollection",header=None)
df.head()

在这里插入图片描述
每一列都是一个特征值(文件随便搜垃圾短信数据集都能下载得到)

# 重命名数据中的两列,使得拥有更好的可读性
df.rename(columns={
   0:"Label", 1:"Text"},inplace=True)
df.head()

在这里插入图片描述
把字符串类型的标签直接改为0和1，这样就可以直接输入到模型中去。

# 把"ham"和"spam"标签重新命名为数字0和1
df["numLabel"] = df

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

急着吃饭的李先生

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

大数据背景下基于文本内容的垃圾短信分类

程序员光剑

08-05

626

大数据背景下基于文本内容的垃圾短信分类 1.背景介绍 1.1 垃圾短信的危害在当今的数字时代,短信作为一种便捷的通信方式被广泛使用。然而,随着垃圾短信的泛滥,它也成为了一个严重的问题。垃圾短信不仅骚扰用户,还可能含有欺诈、病毒等恶意内

垃圾短信检测---逻辑回归

weixin_43760925的博客

04-17

568

垃圾短信检测代码： # _*_ coding: tf-8 _*_ # 垃圾短信检测 # 1、导入需要的包 import pandas as pd from sklearn import linear_model from sklearn.feature_extraction.text import TfidfVectorizer # 2、读取数据集 # 第一列是短信的label，\t键后面是...

参与评论您还未登录，请先登录后发表或查看评论

多项式朴素贝叶斯【机器学习算法一朴素贝叶斯4】

XiaobaiLaplace的博客

07-18

921

import numpy as np from sklearn.naive_bayes import MultinomialNB #导入数据集生成工具 from sklearn.datasets import make_blobs #导入数据集拆分工具 from sklearn.model_selection import train_test_split X,y=make_blobs(n_sam...

贝叶斯垃圾短信数据集

12-26

贝叶斯垃圾短息所需要的数据集，

Spam-Messages-Classifier：对SMS垃圾邮件数据集实施朴素贝叶斯算法

02-17

垃圾邮件分类器在SMS垃圾邮件数据集上实施了朴素贝叶斯算法。数据来自

案例-基于多项式贝叶斯的增量学习的文本分类

专注于各种资源、教程，免费分享

03-15

411

# 说明 # - Python版本：64位 3.7 # - 依赖库：re、tarfile、os、numpy、bs4、sklearn # - 程序输入：article.txt、news_data.tar.gz # - 程序输出：打印输出新的内容所属的主题信息 # 程序 # 导入库 import os import re import tarfile import numpy as np ...

朴素贝叶斯分类算法：垃圾短信的过滤原理

Alan-zzx的博客

02-16

4221

贝叶斯定理 P(A|B) 是在 B 发生的情况下 A 发生的概率； P(A) 是 A 发生的概率； P(B|A) 是在 A 发生的情况下 B 发生的概率； P(B) 是 B 发生的概率。举个栗子说明，假设今天早上小天要出门郊游，但是发现外面天空是多云状态，那么今天会不会下雨呢，或者说多云的情况下今天下雨的概率是多少呢？事件A：今天下雨事件B：早上有云事件 A|B：早上有云，今天下雨...

基于Python垃圾短信识别程序(KNN、逻辑回归、随机森林、决策树和多项式分布朴素贝叶斯、伯努利分布朴素贝叶斯等算法进行融合)

05-23

1.项目基于Python的垃圾短信识别程序，通过 KNN、逻辑回归、随机森林、决策树和朴素贝叶斯等算法进行融合，实现判别提高准确率，并进行测试和应用。 2.项目运行环境：Python环境、 jieba分词库、 Scikit-learn库、 ...

利用朴素贝叶斯过滤垃圾短信.zip

04-15

朴素贝叶斯是一种基于概率的分类算法，常用于文本分类任务，如过滤垃圾短信。它的基本思想是假设特征之间相互独立，并且每个特征对类别有相同的先验概率。在这个案例中，我们将探讨如何利用朴素贝叶斯算法来识别并...

机器学习第11天：朴素贝叶斯模型 - 垃圾短信识别

“365天深度学习训练营”报名进行中～

08-19

1万+

1.前言语言环境：Python3.6.5 编译器：jupyter notebook 代码|数据：微信公众号（明天依旧可好）中回复：第10天这篇文章中，我们将通过贝叶斯模型来识别垃圾短信，这里也将引入分词，管道、tfidf等概念，相对于之前的文章上了一个台阶。 2.导入数据 import pandas as pd data=pd.read_table('../data/noteData.txt',sep='\t',header=None,nrows = 10000,names=["标签","短信内容"

Python机器学习之垃圾短信分类(用朴素贝叶斯算法的伯努利模型和多项式模型分类垃圾短信数据集SMSSpamCollection.txt）

kalakalabala的博客

11-07

1万+

垃圾短信分类；朴素贝叶斯算法的伯努利模型BernoulliNB和多项式模型MultinomialNB分类垃圾短信；垃圾短信数据集SMSSpamCollection.txt；朴素贝叶斯算法分类垃圾短信，就是要找出哪些单词最常出现在垃圾短信中，将这些最常出现的单词，作为特殊单词，用来过滤短信。接下来就是用词袋方法处理文本信息，也就是统计一大段话里的不同单词的出现次数，最后得到一个频率矩阵，矩阵的行就是数据集里的每一行短信，矩阵的列就是短信里每个单词，元素值就是该单词的出现频率。有了频率，那么特殊单词也就能找到了

朴素贝叶斯实现垃圾信息分类

hua0704的专栏

10-18

2084

朴素贝叶斯实现垃圾信息分类代码github1.贝叶斯定义(贝叶斯算法介绍)P(A|B) = P(B|A) * P(B) / P(A)2.训练过程1) 中文分词(以下简称特征)，过滤掉中英文符号，数字，字母，单个词 2）将所有特征组成一个去重的词向量列表 3）计算各个特征在所有分类下的概率3.分类预测1）将待分类数据，分词，向量化 2）根据贝叶斯公式计算各个分类下的概率，取最大概率即分类结果4.优化1

『零基础+1』来做个垃圾短信分类吧

m0_63642362的博客

01-14

2314

垃圾短信（邮件）分类是许多人了解自然语言处理的第一个任务，从生成词向量开始一步步成为NLPer。本项目对该任务进行超详细讲解，希望能帮助更多感兴趣的同学入门。

逻辑回归在垃圾短信分类

weixin_38555491的博客

01-17

574

逻辑回归在垃圾短信分类 from sklearn import linear_model //引入线性模型 import pandas as pd //引入为了读取文本文件 from sklearn.feature_extraction.text import TfidfVectorizer //特征提取模块 df=pd.read_csv(“message.txt”,delimiter=’\t’...

使用sklearn实现垃圾短信识别

sunsi_10的博客

08-21

2270

import pandas as pd import jieba data = pd.read_csv(r"E:\UCAS\labled.txt",sep = '\t',names=['label','text'])#read data and name the row #print(data.head()) data['cut_message'] = data["text"].apply(l...

机器学习—— SVM分类垃圾短信