机器学习判断文本是否合法_机器学习判断语句是否规范-CSDN博客

本文链接：https://blog.csdn.net/qq_41584385/article/details/93780485

前言

本文是笔者做竞赛的时候学习编写的，希望能对大家有所帮助，欢迎讨论、交流哦~~~
参考内容如下：
1、机器学习
2、jieba分词

当前整体思路

1、抓取一定量的合法网站文本和非法网站文本，存在不同的文件夹下备用。
2、读取这些文本内容，筛选出其中的中文字符存入列表。
3、对这些字符进行jieba分词，
4、非法词语存入特征列表，标签添加为1；合法词语存入特征列表，标签添加为0。
5、使用sklearn进行训练集和测试集的比例区分，然后判断输出正确率以及分析。

注意事项

1、如果运行不成功，可以查看一下是否是读取时解码内容是否有误。
对不同的文本用对应的解码方式最好。
2、进一步提高正确率的思路有
（1）增多合法与非法文本的量。
（2）增加停用词。
（3）使用更加合适的机器学习算法。

源代码（含注释）

from sklearn.datasets import  fetch_20newsgroups
from sklearn.model_selection import KFold
from sklearn.model_selectio