常用自然语言处理NLP模型原理

最新推荐文章于 2024-08-07 11:38:54 发布

保护我方鲁班七号

最新推荐文章于 2024-08-07 11:38:54 发布

阅读量5.9k

点赞数 5

分类专栏：机器学习自然语言处理深度学习文章标签：自然语言处理 nlp 机器学习人工智能

本文链接：https://blog.csdn.net/m511655654/article/details/113845770

版权

一、文本处理流程

文本清洗：html标签与转义字符、多余空格、根据需要清除邮箱、账号、网址、手机号、作者信息等信息
预处理：去除停用词、加载自定义词库（实体词库、垂直领域词库）、分词
特征提取：关键词、实体词
建模：文本分类、文本聚类、情感分析、标签提取
优化：停用词库与自定义词库清洗与丰富、文本标签清洗、模型调整
效果评估：满足线上使用要求，准确率、速度
上线部署：部署api接口

二、NLP算法

深度学习在自然语言处理当中，除了在分类问题上能够取得较好效果外（如单选问题：情感分类、文本分类、正确答案分类问题等），在信息抽取上，尤其是在元组抽取上基本上是一塌糊涂，在工业场景下很难达到实用水准。
目前各种评测集大多是人为标注的，人为标注的大多为干净环境下的较为规范的文本，而且省略了真实生产环节中的多个环节。在评测环节中达到的诸多state-of-art方法，在真实应用场景下泛化能力很差，大多仅仅是为了刷榜而刷榜。
目前关于知识图谱的构建环节中，数据大多数都还是来自于结构化数据，半结构化信息抽取次之，非结构化数据抽取最少。半结构化信息抽取，即表格信息抽取最为危险，一个单元格错误很有可能导致所有数据都出现错误。非结构化抽取中，实体识别和实体关系识别难度相当大。
工业场景下命名实体识别，标配的BILSTM+CRF实际上只是辅助手段，工业界还是以领域实体字典匹配为主，大厂中往往在后者有很大的用户日志，这种日志包括大量的实体信息。因此，生产环节中的实体识别工作中，基础性词性的构建和扩展工作显得尤为重要。
目前关于知识图谱推理问题，严格意义上不属于推理的范畴，最多只能相当于是知识补全问题，如评测中的知识推理任务，是三元组补全问题。
目前舆情分析还是处于初级阶段。目前舆情分析还停留在以表层计量为主，配以浅层句子级情感分析和主题挖掘技术的分析。对于深层次事件演化以及对象级情感分析依旧还处于初级阶段。
Bert本质上仅仅是个编码器，是word2vec的升级版而已，不是无所不能，仅仅是编码能力强，向量表示上语义更为丰富，然而大多人都装糊涂。
学界和业界最大的区别在于，学界以探索前沿为目的，提新概念，然后搭个草图就结束，目光并不长远，打完这一战就不知道下一战打什么，下一战该去哪里打，什么时候打，或者打一枪换个阵地再打。而业界，往往面临着生存问题，需要考虑实际问题，还是以解决实际问题为主，因此没必要把学界的那一套理念融入到生产环节中，要根据实际情况制定自己的方法。
利用结构化数据，尤其是百科类infobox数据，采集下来，存入到Neo4j图数据库中，就称自己建立了知识图谱的做法是伪知识图谱做法。基于这类知识图谱，再搞个简单的问答系统，就标榜自己是基于知识图谱的智能问答，实际上很肤浅。
知识图谱不是结构化知识的可视化（不是两个点几条边）那么简单，那叫知识的可视化，不是知识图谱。知识图谱的核心在于知识的图谱化，特点在于知识的表示方法和图谱存储结构，前者决定了知识的抽象表示维度，后者决定了知识运行的可行性，图算法(图遍历、联通图、最短路径)。基于图谱存储结构，进行知识的游走，进行知识表征和未知知识的预测。
物以稀为贵，大家都能获取到的知识，往往价值都很低。知识图谱也是这样&