因工作需要,最近在做自然语言处理方面的研究,第一步需要实现中文分词,市面上有许多开源的分词组件,本人使用的是word分词,但这些开源组件中的词库都比较小,因此这段时间主要是在网上爬了各种词库,并通过XX词典校验,挑选在XX词典中收录的(耗费相当多的精力)。
汇总词库:https://download.csdn.net/download/qengland/10522790
验证过的词库:https://download.csdn.net/download/qengland/10522810
分类词库(根据行业分类):https://download.csdn.net/download/qengland/10522810
同音异形词库:https://download.csdn.net/download/qengland/10524598
分词算法Ngram需要Bigram和Trigram,在下根据google_books生成,数据量在千万级,对于提高分词的精准性有很大帮助。word分词在普通机器(16G以下)基本跑不起来的,通过优化