说实话：中文自然语言处理(知识图谱)的N个真实情况

最新推荐文章于 2024-08-26 19:42:18 发布

「已注销」

最新推荐文章于 2024-08-26 19:42:18 发布

阅读量5.3k

点赞数 32

分类专栏：自然语言处理语言资源人工智能语言信息处理文章标签：自然语言处理假象打假实话

本文链接：https://blog.csdn.net/lhy2014/article/details/89422564

版权

本文揭示了中文自然语言处理领域的误区，指出深度学习在信息抽取上的局限，知识图谱构建的常见问题，以及智能问答系统的现状。深度学习并非万能，真实场景下的应用挑战重重，学界与业界的差距明显。强调了实体识别、知识图谱推理和问答系统中的实际困难，呼吁关注方法创新和深入的语义理解。

摘要由CSDN通过智能技术生成

中文自然语言处理，目前在AI泡沫之下，真假难辨，实战技术与PPT技术往往存在着很大的差异。目前关于AI或者自然语言处理，做的人与讲的人往往是两回事。
1、深度学习在自然语言处理当中，除了在分类问题上能够取得较好效果外（如单选问题：情感分类、文本分类、正确答案分类问题等），在信息抽取上，尤其是在元组抽取上基本上是一塌糊涂，在工业场景下很难达到实用水准。
2、目前各种评测集大多是人为标注的，人为标注的大多为干净环境下的较为规范的文本，而且省略了真实生产环节中的多个环节。在评测环节中达到的诸多state-of-art方法，在真实应用场景下泛化能力很差，大多仅仅是为了刷榜而刷榜。
3、目前关于知识图谱的构建环节中，数据大多数都还是来自于结构化数据，半结构化信息抽取次之，非结构化数据抽取最少。半结构化信息抽取，即表格信息抽取最为危险，一个单元格错误很有可能导致所有数据都出现错误。非结构化抽取中，实体识别和实体关系识别难度相当大。
4、工业场景下命名实体识别，标配的BILSTM+CRF实际上只是辅助手段，工业界还是以领域实体字典匹配为主，大厂中往往在后者有很大的用户日志，这种日志包括大量的实体信息。因此，生产环节中的实体识别工作中，基础性词性的构建和扩展工作显得尤为重要。
5、目前关于知识图谱推理问题，严格意义上不属于推理的范畴，最多只能相当于是知识补全问题，如评测中的知识推理任务，是三元组补全问题。
6、目前舆情分析还是处于初级阶段。目前舆情分析还停留在以表层计量为主，配以浅层句子级情感分析和主题挖掘技术的分析。对于深层次事件演化以及对象级情感分析依旧还处于初级阶段。
7、Bert本质上仅仅是个编码器，是word2vec的升级