默认的切分正则为
re_han_default = re.compile("([\u4E00-\u9FD5a-zA-Z0-9+#&\._%]+)", re.U)
这样切分不到带其它特殊符号的词,会将其当作句子分隔符。如果要切分的词带有'
、-
等符号,可以在导入模块后修改该变量:
jieba.re_han_default = re.compile(r"([\u4E00-\u9FD5a-zA-Z0-9+#&\.\-'_%]+)", re.U)
默认的切分正则为
re_han_default = re.compile("([\u4E00-\u9FD5a-zA-Z0-9+#&\._%]+)", re.U)
这样切分不到带其它特殊符号的词,会将其当作句子分隔符。如果要切分的词带有'
、-
等符号,可以在导入模块后修改该变量:
jieba.re_han_default = re.compile(r"([\u4E00-\u9FD5a-zA-Z0-9+#&\.\-'_%]+)", re.U)