自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 不同命名实体识别模型效果对比

本篇文章向大家介绍一下,在训练样本不是很多的情况下,不同命名实体识别模型的效果对比。一、前期准备及说明:数据来源:https://www.cluebenchmarks.com/introduce.html CLUENER细粒度命名实体识别。本demo只识别公司实体(company)和职位实体(company),筛选含有公司和职位的数据,作为训练和验证数据。训练数据:4089条。 验证数据:546条。本demo无单个字的实体情况,采用BIO标签体系,本demo共有5个标签,O,B-com,

2020-12-21 17:58:30 2119 4

原创 elasticsearch安装head插件步骤

第一步:安装node.js,head插件是nodejs实现的,所以必须先安装Nodejs。配置好环境变量。具体过程略。第二步:安装git。配置好环境变量。具体过程略。第三步:配置elasticsearch,允许head插件访问。进入elasticsearch的config目录,打开elasticsearch.yml。在最后末尾加上:http.cors.enabled: truehttp.cors.allow-origin: "*"第四步:(1)gi

2020-08-28 12:55:29 348

原创 文本相似度匹配模型--对knrm的改进

一、knrm模型knrm是Interaction based文本相似度模型,模型架构如下:具体步骤如下:公式从最后往前看,6)embedding;5)计算query 和document的cos matching matrix;4)对 matching matrix 每个元素计算RBF kernel,然后按列相加得到3),2)log然后累加,1)接tanh具体可参见论文《End-to-End Neural Ad-hoc Ranking with Kernel Pooling》本人自

2020-08-01 19:23:54 1011 8

原创 命名实体识别的几点心得

ner模型除了用词典规则之外,主要就是特征提取器+crf模型了。特征提取可以采用onehot、词频向量、w2v、lstm、cnn、bert等其中的一种或者组合。本人现在在做能源领域的知识图谱,对ner优化有点几点心得,分享给大家,供参考。心得1:字向量 or 词向量词向量会存在oov情况,需要人工维护。字向量可能会学不出来词语的关系,采用带双向功能的特征提取器可缓解此问题,比如bilstm、bert等。在训练数据质量较差的时候(比如口语化较多,错别字较多,简称缩写较多等),采用字向量

2020-07-25 12:01:52 884 1

原创 手把手教您搭建对话系统

本篇通过文本相似度匹配,从0到1搭建一个简单的对话系统chatbot。具体代码参见git:https://github.com/EdisonChen0816/chatbotchatbot有三部分:1,意图识别2,faq标准问3,闲聊三者采用同样的技术,都采用文本相似度匹配,只是返回结果的形式略有不同而已。以意图识别举例。1,确定实体,将能抽象出来的词语,确定为实体,其他的为Term,创建实体词典。比如:上海天气怎么样? 杭州天气怎么样? 南京天气怎么样?上海、杭州和南京都能

2020-07-11 17:36:36 1159 6

转载 中文情感分析综述

情感分析(Sentiment Analysis)第一步,就是确定一个词是积极还是消极,是主观还是客观。这一步主要依靠词典。英文已经有伟大词典资源:SentiWordNet. 无论积极消极、主观客观,还有词语的情感强度值都一并拿下。但在中文领域,判断积极和消极已经有不少词典资源,如Hownet,NTUSD但用过这些词典就知道,效果实在是不咋滴(最近还发现了大连理工发布的情感词汇本体库,不过没用过...

2018-11-05 13:32:52 2432

转载 中文汉字错别字纠错方法

前记        本文简单地讲解如何使用n-gram模型结合汉字拼音来作中文错别字纠错,然后介绍最短编辑距离在中文搜索纠错方面的应用;最后从依赖树入手讲解如何作文本长距离纠错(语法纠错),并从该方法中得到一种启示,利用依赖树的特点结合ESA算法来做同义词的查找。n-gram模型        在中文错别字查错情景中,我们判断一个句子是否合法可以通过计算它的概率来得到,假设一个句子S ...

2018-11-03 17:17:07 15295

转载 逻辑斯蒂回归能否解决非线性分类问题? 逻辑斯蒂回归提出时用来解决线型分类问题,其分离面是一个线型超平面wx+b,如果将这个超平面改成非线性的,如x1^2+x2=0之类的非线性超平面来进行分类,是否也可

逻辑回归的模型引入了sigmoid函数映射,是非线性模型,但本质上又是一个线性回归模型,因为除去sigmoid映射函数关系,其他的步骤,算法都是线性回归的。可以说,逻辑回归,都是以线性回归为理论支持的。这里讲到的线性,是说模型关于系数一定是线性形式的加入sigmoid映射后,变成:如果分类平面本身就是线性的,那么逻辑回归关于特征变量x,以及关于系数都是线性的如果分类平面是非线性的,例如题...

2018-10-24 16:31:37 2436

转载 自己动手做聊天机器人 九-聊天机器人应该怎么做

聊天机器人到底该怎么做呢?我日思夜想,于是乎我做了一个梦,梦里面我完成了我的聊天机器人,它叫chatbot,经过我的一番盘问,它向我叙述了它的诞生记  聊天机器人是可行的我:chatbot,你好!chatbot:你也好!我:聊天机器人可行吗?chatbot:你不要怀疑这是天方夜谭,我不就在这里吗?世界上还有很多跟我一样聪明的机器人呢,你听过IBM公司在2010年就研发出来了的Watson问答系统吗...

2018-06-14 13:55:27 3123

转载 stick-learn朴素贝叶斯的三个常用模型:高斯、多项式、伯努利

朴素贝叶斯是一个很不错的分类器,在使用朴素贝叶斯分类器划分邮件有关于朴素贝叶斯的简单介绍。若一个样本有n个特征,分别用x1,x2,...,xn表示,将其划分到类yk的可能性P(yk|x1,x2,...,xn)为:P(yk|x1,x2,...,xn)=P(yk)∏ni=1P(xi|yk)上式中等号右侧的各个值可以通过训练得到。根据上面的公式可以求的某个数据属于各个分类的可能性

2017-12-25 17:13:01 1987

原创 携程呼叫中心话务监控平台

携程呼叫中心话务概况携程作为中国最大的OTA,和国内外近十家电信运营商展开合作,目前拥有语音线路共13000多路,包括传统语音线路以及基于软交换的SIP线路,每天的话务量更是以百万计。从业务类型来说,又可以分为人工呼入呼出、自动呼入呼出和自动转呼等等。面对不同运营商、不同线路特性的运维管理和灵活多变业务需求,基于系统稳定性以及成本控制要求,基于监控精细化、自动化、操作便捷化标准下做到对故障

2017-12-14 10:15:12 1258

转载 java命令行执行带依赖jar包的main函数

# 在Linux下面ClassPath前面是一个点号加一个冒号;在Windows下面ClassPath前面是一个点号加一个分号。java -Dfile.encoding=utf8 -cp .:./lib/commons-lang-2.6.jar:./lib/log4j-1.2.15.jar Mytestjava -Dfile.encoding=gbk -cp .;./lib/commo

2016-07-11 13:24:30 896

原创 linux下怎么找到jdk的安装路径

这个问题看似很简单,不过就这么看似简单的问题,我竟然搞了一下午,惭愧,好了,说正题。网上很多人说,用whereis java或者which java,但是找到的路径并不是jdk的安装路径,而是执行路径。其实在jdk中的安装路径中,bin下目录有个jps,直接用find / -name jps或者locate jps便可知晓jdk的安装路径。没错,就这么简单。我tmd搞了一下午。

2016-04-11 09:40:49 817

转载 数据预处理过程

概括起来,统计数据预处理的过程包括数据审查、数据清理、数据转换和数据验证四大步骤。(一)数据审查该步骤检查数据的数量(记录数)是否满足分析的最低要求,字段值的内容是否与调查要求一致,是否全面;还包括利用描述性统计分析,检查各个字段的字段类型、字段值的最大值、最小值、平均数、中位数等,记录个数、缺失值或空值个数等。(二)数据清理该步骤针对数据审查过程中发现的明显错误值

2016-01-05 21:51:23 2173

原创 windows vs2013环境配置hiredis

在网上也找了几篇有关windows环境配置hiredis的博客和相关文章,但是我找的10余篇没有一个能测试成功的,后来我自己不断摸索,并测试成功。1,下载windows版本的reids服务,redis3.0.exe或者redis3.0.msi,网上可下载资源很多2,下载redis地址:https://github.com/MSOpenTech/redisredi

2015-12-26 11:29:08 2916

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除