清华中文分词工具thulac使用记录 1 安装 2 使用 2.1 遇到的问题解决 2.2 使用分词和词性标注 2.3 清除文本中的空行 3 thulac使用方式 3.1 使用示例 3.2 接口参数 3.3 guihub 地址 1 安装 由于用到了分词,需要给已经处理成每行内容只含汉字的txt文本进行分词,所以想到用thulac试一下。环境是anaconda+pycharm+python 3.6. 使用pip安装: pip install thulac 2 使用 pycharm中新建python文件,导入thulac包,然后输入命令: import thulac thu1 = thulac.thulac(seg_only=True) #只进行分词,不进行词性标注 thu1.cut_f("input.txt", "output.txt"