现在项目上有个需求:对根本原因进行预测。
也就是说,给定根本原因以及其所对应的标签,通过机器学习算法对以后输入的根本原因进行自动化归类(或者说智能提示当前输入的根本原因属于哪个类别的)
![d5c68abf964b2d9b87b8ce1b4179745c.png](https://img-blog.csdnimg.cn/img_convert/d5c68abf964b2d9b87b8ce1b4179745c.png)
图1.数据库中的格式
我想既然需要用到机器学习,肯定需要将数据清洗。所以第一步我先把根本原因字段进行分词处理,然后再将分好的词对应的类别转换成机器学习所需的格式,进行训练、预测处理。
So 今天先把“根本原因”字段进行分词处理。
说到中文分词肯定用 jieba 了,关于jieba的使用教程以及各种参数的使用这里就不在冗余的叙述了,百度一下你就知道。我在这边就把我分词的过程代码以及环境的搭建分享一下。
环境:Python 3.6 +
![b44c1ac347faa1a8c2101b6da4924e9e.png](https://img-blog.csdnimg.cn/img_convert/b44c1ac347faa1a8c2101b6da4924e9e.png)
我的python版本
然后进入cmd进入命令模式,安装jieba
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jieba
![5680c1edd3ce7bfa7ac2692f893642cd.png](https://img-blog.csdnimg.cn/img_convert/5680c1edd3ce7bfa7ac2692f893642cd.png)
安装jieba
用了清华的镜像 这样比较快!
接着就是准备文本文件,对于这个数据的获取方式有两种,1.直接读取数据库获得,2.通过数据库导出文本。本次只是简单的测试数据量没有那么大,所以我就直接将数据库中的数据导出了,导出后的文本如下。
![4f741d86a31dc623fed55e9f064d6bb3.png](https://img-blog.csdnimg.cn/img_convert/4f741d86a31dc623fed55e9f064d6bb3.png)
输入的文本
接下来准备一个停用词的文本,停用词就是遇到这个词就跳过,如“了”、“的”、“吧嗒”等一些没有意义的词汇和符号。我使用的停用词为哈工大停用词库,找不到的话可以找我。
![034307add424d05646b0863b719b0750.png](https://img-blog.csdnimg.cn/img_convert/034307add424d05646b0863b719b0750.png)
部分停用词
接下来上python代码
![0073f7b43005c6271d8792ff577c5b1e.png](https://img-blog.csdnimg.cn/img_convert/0073f7b43005c6271d8792ff577c5b1e.png)
所有代码
确保你输入文本的路径以及停用词的路径放的正确,我这里是将它们放到了同级目录下。
点击运行会得到一个分词后的文本output2.txt,打开它与输入的文本做一个对比
![ac880199203cd215b5867f58d0e0e817.png](https://img-blog.csdnimg.cn/img_convert/ac880199203cd215b5867f58d0e0e817.png)
可看出分词效果还不错,但是人名什么的还是在。所以说根据业务需求来确定停用词表还是有必要的。
分词完成后,我该怎么做。。。。。。。。。。。
有没有大佬给指点一二。。。。。。。。。。。。
or
用我原来的思路继续走下去。。。。。。。。。。