一个非知识库的中文分词算法实现

最新推荐文章于 2023-01-21 01:23:38 发布

萝卜虫

最新推荐文章于 2023-01-21 01:23:38 发布

阅读量552

点赞数

分类专栏：自然语言处理文章标签：自然语言处理算法 nlp

本文链接：https://blog.csdn.net/qq575379110/article/details/70521249

版权

目前，公司正在做一个简历系统，简单的讲，就是方便HR MM们筛选简历。

　　刚开始听到这个需求的时候，感觉挺简单，没啥东西。但是开会后，发现麻雀虽小，五脏俱全，自然语言处理需要的东西一个都少不了。
　　其中有一个关键点，涉及到一个信息抽取和命名实体识别的问题。我算是发现了，这个命名实体识别，只要是个NLP项目，差不多就躲不过去了。这个值得花点功夫好好研究下，后面会写一个命名实体识别的算法总结报告，先立一个flag！~

嗯，细化到这个HR系统中，就是来发现每个简历中的技能名称，方便后续的简历和JD的匹配。这样，技能发现的问题抽象为一个命名实体识别的问题。ok，到这一步，就有眉目了。

　　越来越发现，这个英文比中文省事多了，没有分词这一项（会不会中国人的智商就是从小学中文练出来的？）。
　　好，现在到了分词这一项，分好了词，命名实体识别完成大半了。不就分词吗？现在这么多分词工具，jieba，thulac，ltp等等，用这些就可以吗？
　　好像行。但是，想到的不足地方是，这些分词工具，都是根据自己的知识库来训练切分，很多词语应该作为一个整体，它可能就给切碎了，我们可不可以在切词这块，差不多就完成命名实体的整体切分呢？
　　其实，说到底，我们想用自己的语料，切的更符合我们的心意。