python 邮件分类_python_NLP实战之中文垃圾邮件分类

最新推荐文章于 2023-11-20 18:20:40 发布

朱太帅

最新推荐文章于 2023-11-20 18:20:40 发布

阅读量1.7k

点赞数

文章标签： python 邮件分类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_29786123/article/details/112875286

版权

一、机器学习训练的要素数据、转换数据的模型、衡量模型好坏的损失函数、调整模型权重以便最小化损失函数的算法二、机器学习的组成部分1、按照学习结果分类预测、聚类、分类、降维2、按照学习方法分类监督学习，无监督学习，半监督学习，增强学习补充：特征提取(BOW TFIDF Ngram)三、实战中文垃圾文件分类1、数据提取def get_data():'''获取数据，数据的载入:return: 文本数...

摘要由CSDN通过智能技术生成

一、机器学习训练的要素

数据、转换数据的模型、衡量模型好坏的损失函数、调整模型权重以便最小化损失函数的算法

二、机器学习的组成部分

1、按照学习结果分类

预测、聚类、分类、降维

2、按照学习方法分类

监督学习，无监督学习，半监督学习，增强学习

补充：特征提取(BOW TFIDF Ngram)

三、实战中文垃圾文件分类

1、数据提取

def get_data():

'''

获取数据，数据的载入

:return: 文本数据，对应的labels

'''

with open("data/ham_data.txt", encoding="utf8") as ham_f, open("data/spam_data.txt", encoding="utf8") as spam_f:

ham_data = ham_f.readlines()

spam_data = spam_f.readlines()

ham_label = np.ones(len(ham_data)).tolist()

spam_label = np.zeros(len(spam_data)).tolist()

corpus = ham_data + spam_data

labels = ham_label + spam_label

return corpus, labels

def prepare_datasets(corpus, labels, test_data_proportion=0.3):

'''

将数据分为训练集和测试集

:param corpus: 文本数据

:param labels: label数据

:param test_data_proportion:测试数据占比

:return: 训练数据,测试数据，训练label,测试label

'''

train_X, test_X, train_Y, test_Y = train_test_split(corpus, labels,

test_size=test_data_proportion, random_state=42)

return train_X, test_X, train_Y, test_Y

2、对数据进行规整化和预处理

import re

import string

import jieba

最低0.47元/天解锁文章

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
python 邮件分类_python_NLP实战之中文垃圾邮件分类

一、机器学习训练的要素数据、转换数据的模型、衡量模型好坏的损失函数、调整模型权重以便最小化损失函数的算法二、机器学习的组成部分1、按照学习结果分类预测、聚类、分类、降维2、按照学习方法分类监督学习，无监督学习，半监督学习，增强学习补充：特征提取(BOW TFIDF Ngram)三、实战中文垃圾文件分类1、数据提取def get_data():'''获取数据，数据的载入:return: 文本数...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。