1.选择语料库
这个是我项目私人的语料库
具体操作方法就是把所有要处理的文字放到一个文件里,标点符号什么的可以等在分词的时候逐行处理,反正要逐行分词~
如图:
只能窥探一角~
2.分词处理
分词工具我选择的是jieba
项目地址:https://github.com/fxsjy/jieba
这上面的文档齐全,足够
1)安装jieba:
看到网站上“全自动”安装几个大字了吧~安装好之后测试效果:
2)自定义词典
参考官方解释:https://github.com/fxsjy/jieba/blob/master/test/userdict.txt
我的语料库是体育相关的,所以很多词汇jieba里面是没有的,所以要添加自定义词典,把新词加进去。
看他的官方解释,如果你想让你自定义的词必须一定要被分出来,可以把最后一列的值调的很大,例如2000
我的词典如下: