python 邮件分类_python_NLP实战之中文垃圾邮件分类

一、机器学习训练的要素数据、转换数据的模型、衡量模型好坏的损失函数、调整模型权重以便最小化损失函数的算法二、机器学习的组成部分1、按照学习结果分类预测、聚类、分类、降维2、按照学习方法分类监督学习,无监督学习,半监督学习,增强学习补充:特征提取(BOW TFIDF Ngram)三、实战中文垃圾文件分类1、数据提取def get_data():'''获取数据,数据的载入:return: 文本数...
摘要由CSDN通过智能技术生成

一、机器学习训练的要素

数据、转换数据的模型、衡量模型好坏的损失函数、调整模型权重以便最小化损失函数的算法

二、机器学习的组成部分

1、按照学习结果分类

预测、聚类、分类、降维

2、按照学习方法分类

监督学习,无监督学习,半监督学习,增强学习

补充:特征提取(BOW   TFIDF  Ngram)

三、实战中文垃圾文件分类

1、数据提取

def get_data():

'''

获取数据,数据的载入

:return: 文本数据,对应的labels

'''

with open("data/ham_data.txt", encoding="utf8") as ham_f, open("data/spam_data.txt", encoding="utf8") as spam_f:

ham_data = ham_f.readlines()

spam_data = spam_f.readlines()

ham_label = np.ones(len(ham_data)).tolist()

spam_label = np.zeros(len(spam_data)).tolist()

corpus = ham_data + spam_data

labels = ham_label + spam_label

return corpus, labels

def prepare_datasets(corpus, labels, test_data_proportion=0.3):

'''

将数据分为训练集和测试集

:param corpus: 文本数据

:param labels: label数据

:param test_data_proportion:测试数据占比

:return: 训练数据,测试数据,训练label,测试label

'''

train_X, test_X, train_Y, test_Y = train_test_split(corpus, labels,

test_size=test_data_proportion, random_state=42)

return train_X, test_X, train_Y, test_Y

2、对数据进行规整化和预处理

import re

import string

import jieba

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值