jieba分词加入特殊字符和空格
更改jieba根目录下posseg文件下的__init__.py下代码:
1.原来:re_han_internal = re.compile(“([\u4E00-\u9FD5a-zA-Z0-9+#&._]+)”)
2.现在:re_han_internal = re.compile(“(.+)”, re.U)
参考链接:https://www.cnblogs.com/callyblog/p/10097847.html
注:更改jieba根目录下的__init__.py文件下代码我试过在我这儿好像不起作用,直接更改re_han_internal就可以了,大家可以试一下,这样更改后在自定义词典中就可以加入任何字符了,最后一个以空格分开的数字为词频