机器学习判断文本是否合法

前言

本文是笔者做竞赛的时候学习编写的,希望能对大家有所帮助,欢迎讨论、交流哦~~~
参考内容如下:
1、机器学习
2、jieba分词

当前整体思路

1、抓取一定量的合法网站文本和非法网站文本,存在不同的文件夹下备用。
2、读取这些文本内容,筛选出其中的中文字符存入列表。
3、对这些字符进行jieba分词,
4、非法词语存入特征列表,标签添加为1;合法词语存入特征列表,标签添加为0。
5、使用sklearn进行训练集和测试集的比例区分,然后判断输出正确率以及分析。

注意事项

1、如果运行不成功,可以查看一下是否是读取时解码内容是否有误。
对不同的文本用对应的解码方式最好。
2、进一步提高正确率的思路有
(1)增多合法与非法文本的量。
(2)增加停用词。
(3)使用更加合适的机器学习算法。

源代码(含注释)

from sklearn.datasets import  fetch_20newsgroups
from sklearn.model_selection import KFold
from sklearn.model_selectio
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值