![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
人工智能
Edison0816
精诚所至,金石为开。
展开
-
不同命名实体识别模型效果对比
本篇文章向大家介绍一下,在训练样本不是很多的情况下,不同命名实体识别模型的效果对比。一、前期准备及说明:数据来源:https://www.cluebenchmarks.com/introduce.html CLUENER细粒度命名实体识别。本demo只识别公司实体(company)和职位实体(company),筛选含有公司和职位的数据,作为训练和验证数据。训练数据:4089条。 验证数据:546条。本demo无单个字的实体情况,采用BIO标签体系,本demo共有5个标签,O,B-com,原创 2020-12-21 17:58:30 · 2230 阅读 · 4 评论 -
命名实体识别的几点心得
ner模型除了用词典规则之外,主要就是特征提取器+crf模型了。特征提取可以采用onehot、词频向量、w2v、lstm、cnn、bert等其中的一种或者组合。本人现在在做能源领域的知识图谱,对ner优化有点几点心得,分享给大家,供参考。心得1:字向量 or 词向量词向量会存在oov情况,需要人工维护。字向量可能会学不出来词语的关系,采用带双向功能的特征提取器可缓解此问题,比如bilstm、bert等。在训练数据质量较差的时候(比如口语化较多,错别字较多,简称缩写较多等),采用字向量原创 2020-07-25 12:01:52 · 904 阅读 · 1 评论 -
手把手教您搭建对话系统
本篇通过文本相似度匹配,从0到1搭建一个简单的对话系统chatbot。具体代码参见git:https://github.com/EdisonChen0816/chatbotchatbot有三部分:1,意图识别2,faq标准问3,闲聊三者采用同样的技术,都采用文本相似度匹配,只是返回结果的形式略有不同而已。以意图识别举例。1,确定实体,将能抽象出来的词语,确定为实体,其他的为Term,创建实体词典。比如:上海天气怎么样? 杭州天气怎么样? 南京天气怎么样?上海、杭州和南京都能原创 2020-07-11 17:36:36 · 1175 阅读 · 6 评论 -
中文情感分析综述
情感分析(Sentiment Analysis)第一步,就是确定一个词是积极还是消极,是主观还是客观。这一步主要依靠词典。英文已经有伟大词典资源:SentiWordNet. 无论积极消极、主观客观,还有词语的情感强度值都一并拿下。但在中文领域,判断积极和消极已经有不少词典资源,如Hownet,NTUSD但用过这些词典就知道,效果实在是不咋滴(最近还发现了大连理工发布的情感词汇本体库,不过没用过...转载 2018-11-05 13:32:52 · 2473 阅读 · 0 评论 -
中文汉字错别字纠错方法
前记 本文简单地讲解如何使用n-gram模型结合汉字拼音来作中文错别字纠错,然后介绍最短编辑距离在中文搜索纠错方面的应用;最后从依赖树入手讲解如何作文本长距离纠错(语法纠错),并从该方法中得到一种启示,利用依赖树的特点结合ESA算法来做同义词的查找。n-gram模型 在中文错别字查错情景中,我们判断一个句子是否合法可以通过计算它的概率来得到,假设一个句子S ...转载 2018-11-03 17:17:07 · 15450 阅读 · 0 评论 -
逻辑斯蒂回归能否解决非线性分类问题? 逻辑斯蒂回归提出时用来解决线型分类问题,其分离面是一个线型超平面wx+b,如果将这个超平面改成非线性的,如x1^2+x2=0之类的非线性超平面来进行分类,是否也可
逻辑回归的模型引入了sigmoid函数映射,是非线性模型,但本质上又是一个线性回归模型,因为除去sigmoid映射函数关系,其他的步骤,算法都是线性回归的。可以说,逻辑回归,都是以线性回归为理论支持的。这里讲到的线性,是说模型关于系数一定是线性形式的加入sigmoid映射后,变成:如果分类平面本身就是线性的,那么逻辑回归关于特征变量x,以及关于系数都是线性的如果分类平面是非线性的,例如题...转载 2018-10-24 16:31:37 · 2465 阅读 · 0 评论 -
自己动手做聊天机器人 九-聊天机器人应该怎么做
聊天机器人到底该怎么做呢?我日思夜想,于是乎我做了一个梦,梦里面我完成了我的聊天机器人,它叫chatbot,经过我的一番盘问,它向我叙述了它的诞生记 聊天机器人是可行的我:chatbot,你好!chatbot:你也好!我:聊天机器人可行吗?chatbot:你不要怀疑这是天方夜谭,我不就在这里吗?世界上还有很多跟我一样聪明的机器人呢,你听过IBM公司在2010年就研发出来了的Watson问答系统吗...转载 2018-06-14 13:55:27 · 3131 阅读 · 0 评论 -
stick-learn朴素贝叶斯的三个常用模型:高斯、多项式、伯努利
朴素贝叶斯是一个很不错的分类器,在使用朴素贝叶斯分类器划分邮件有关于朴素贝叶斯的简单介绍。若一个样本有n个特征,分别用x1,x2,...,xn表示,将其划分到类yk的可能性P(yk|x1,x2,...,xn)为:P(yk|x1,x2,...,xn)=P(yk)∏ni=1P(xi|yk)上式中等号右侧的各个值可以通过训练得到。根据上面的公式可以求的某个数据属于各个分类的可能性转载 2017-12-25 17:13:01 · 2000 阅读 · 0 评论 -
携程呼叫中心话务监控平台
携程呼叫中心话务概况携程作为中国最大的OTA,和国内外近十家电信运营商展开合作,目前拥有语音线路共13000多路,包括传统语音线路以及基于软交换的SIP线路,每天的话务量更是以百万计。从业务类型来说,又可以分为人工呼入呼出、自动呼入呼出和自动转呼等等。面对不同运营商、不同线路特性的运维管理和灵活多变业务需求,基于系统稳定性以及成本控制要求,基于监控精细化、自动化、操作便捷化标准下做到对故障原创 2017-12-14 10:15:12 · 1287 阅读 · 0 评论