前言
本文是笔者做竞赛的时候学习编写的,希望能对大家有所帮助,欢迎讨论、交流哦~~~
参考内容如下:
1、机器学习
2、jieba分词
当前整体思路
1、抓取一定量的合法网站文本和非法网站文本,存在不同的文件夹下备用。
2、读取这些文本内容,筛选出其中的中文字符存入列表。
3、对这些字符进行jieba分词,
4、非法词语存入特征列表,标签添加为1;合法词语存入特征列表,标签添加为0。
5、使用sklearn进行训练集和测试集的比例区分,然后判断输出正确率以及分析。
注意事项
1、如果运行不成功,可以查看一下是否是读取时解码内容是否有误。
对不同的文本用对应的解码方式最好。
2、进一步提高正确率的思路有
(1)增多合法与非法文本的量。
(2)增加停用词。
(3)使用更加合适的机器学习算法。
源代码(含注释)
from sklearn.datasets import fetch_20newsgroups
from sklearn.model_selection import KFold
from sklearn.model_selectio