简介
LAC全称Lexical Analysis of Chinese,是百度NLP(自然语言处理部)研发的一款词法分析工具,可实现中文分词、词性标注、专名识别等功能。
LAC在分词、词性、专名识别的整体准确率超过90%,以专名识别为例,其效果要比同类词法分析工具提升10%以上。
例如:我知道你不知道,百度开源词法LAC帮你更懂中文!
LAC 2.0可以从语义合理性角度精确完成分词、词性标注和专名的一体化识别。
LAC 2.0有哪些优势
自开源以来,LAC得到了不少关注与好评。为了进一步提升厂内外开发者的使用体验,我们对LAC进行了新一轮全面升级,带来5大优势:
效果好:通过大规模语料自动标注和联合模型训练,整体效果业内领先
通过前沿的深度学习模型BiGRU-CRF,LAC 2.0可以联合学习分词、词性标注和实体识别这三个具有强关联性的任务,模型的整体效果F1值超过了0.91,词性标注F1值超过了0.94,专名识别F1值超过了0.85,效果对比业内其他开源工具达到了领先的水平。
同时,对于词法分析而言,OOV(新词,out of vocabulary)是当前模型效果提升最大的障碍,最有效的解决方法是增加数据量