自然语言处理
Edison0816
精诚所至,金石为开。
展开
-
不同命名实体识别模型效果对比
本篇文章向大家介绍一下,在训练样本不是很多的情况下,不同命名实体识别模型的效果对比。一、前期准备及说明:数据来源:https://www.cluebenchmarks.com/introduce.html CLUENER细粒度命名实体识别。本demo只识别公司实体(company)和职位实体(company),筛选含有公司和职位的数据,作为训练和验证数据。训练数据:4089条。 验证数据:546条。本demo无单个字的实体情况,采用BIO标签体系,本demo共有5个标签,O,B-com,原创 2020-12-21 17:58:30 · 2373 阅读 · 4 评论 -
elasticsearch安装head插件步骤
第一步:安装node.js,head插件是nodejs实现的,所以必须先安装Nodejs。配置好环境变量。具体过程略。第二步:安装git。配置好环境变量。具体过程略。第三步:配置elasticsearch,允许head插件访问。进入elasticsearch的config目录,打开elasticsearch.yml。在最后末尾加上:http.cors.enabled: truehttp.cors.allow-origin: "*"第四步:(1)gi原创 2020-08-28 12:55:29 · 364 阅读 · 0 评论 -
文本相似度匹配模型--对knrm的改进
一、knrm模型knrm是Interaction based文本相似度模型,模型架构如下:具体步骤如下:公式从最后往前看,6)embedding;5)计算query 和document的cos matching matrix;4)对 matching matrix 每个元素计算RBF kernel,然后按列相加得到3),2)log然后累加,1)接tanh具体可参见论文《End-to-End Neural Ad-hoc Ranking with Kernel Pooling》本人自原创 2020-08-01 19:23:54 · 1140 阅读 · 8 评论 -
命名实体识别的几点心得
ner模型除了用词典规则之外,主要就是特征提取器+crf模型了。特征提取可以采用onehot、词频向量、w2v、lstm、cnn、bert等其中的一种或者组合。本人现在在做能源领域的知识图谱,对ner优化有点几点心得,分享给大家,供参考。心得1:字向量 or 词向量词向量会存在oov情况,需要人工维护。字向量可能会学不出来词语的关系,采用带双向功能的特征提取器可缓解此问题,比如bilstm、bert等。在训练数据质量较差的时候(比如口语化较多,错别字较多,简称缩写较多等),采用字向量原创 2020-07-25 12:01:52 · 927 阅读 · 1 评论 -
手把手教您搭建对话系统
本篇通过文本相似度匹配,从0到1搭建一个简单的对话系统chatbot。具体代码参见git:https://github.com/EdisonChen0816/chatbotchatbot有三部分:1,意图识别2,faq标准问3,闲聊三者采用同样的技术,都采用文本相似度匹配,只是返回结果的形式略有不同而已。以意图识别举例。1,确定实体,将能抽象出来的词语,确定为实体,其他的为Term,创建实体词典。比如:上海天气怎么样? 杭州天气怎么样? 南京天气怎么样?上海、杭州和南京都能原创 2020-07-11 17:36:36 · 1207 阅读 · 6 评论 -
中文汉字错别字纠错方法
前记 本文简单地讲解如何使用n-gram模型结合汉字拼音来作中文错别字纠错,然后介绍最短编辑距离在中文搜索纠错方面的应用;最后从依赖树入手讲解如何作文本长距离纠错(语法纠错),并从该方法中得到一种启示,利用依赖树的特点结合ESA算法来做同义词的查找。n-gram模型 在中文错别字查错情景中,我们判断一个句子是否合法可以通过计算它的概率来得到,假设一个句子S ...转载 2018-11-03 17:17:07 · 15669 阅读 · 0 评论 -
中文情感分析综述
情感分析(Sentiment Analysis)第一步,就是确定一个词是积极还是消极,是主观还是客观。这一步主要依靠词典。英文已经有伟大词典资源:SentiWordNet. 无论积极消极、主观客观,还有词语的情感强度值都一并拿下。但在中文领域,判断积极和消极已经有不少词典资源,如Hownet,NTUSD但用过这些词典就知道,效果实在是不咋滴(最近还发现了大连理工发布的情感词汇本体库,不过没用过...转载 2018-11-05 13:32:52 · 2505 阅读 · 0 评论