自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 资源 (9)
  • 收藏
  • 关注

转载 ###好好好##NMT与Attention

从NMT的历史谈到现代,讲解了attention机制的动机、原理及最新的拓展。通过实例展示谷歌翻译的变化,直言不讳指出其过度炒作。Manning今天还换上了新MBP,挺潮的。机器翻译 传统衡量机器对语言理解的测试之一 同时涉及到语言分析与理解 一个每年400亿美金的产业 主要在欧洲,亚洲也在兴起 机器翻译的需求 Google每天翻译1000亿单词...

2018-08-31 16:36:28 473

转载 神经机器翻译(NMT)详细资料整理

1 简介     自2013年提出了神经机器翻译系统之后,神经机器翻译系统取得了很大的进展。最近几年相关的论文,开源系统也是层出不穷。本文主要梳理了神经机器翻译入门、进阶所需要阅读的资料和论文,并提供了相关链接以及简单的介绍,以及总结了相关的开源系统和业界大牛,以便其他的小伙伴可以更快的了解神经机器翻译这一领域。随着知识的逐步积累,本文后续会持续更新。请关注。 2 入门资料 这部分...

2018-08-31 14:10:45 4159 1

转载 Bi-LSTM+CRF 在文本序列标注中的应用

机器之心专栏作者:触宝 AI 实验室 Principal Engineer 董冰峰传统 CRF 中的输入 X 向量一般是 word 的 one-hot 形式,前面提到这种形式的输入损失了很多词语的语义信息。有了词嵌入方法之后,词向量形式的词表征一般效果比 one-hot 表示的特征要好。本文先主要介绍了 LSTM、词嵌入与条件随机场,然后再从序列标注问题探讨 BiLSTM 与 CRF 等的...

2018-08-30 15:41:48 5082

转载 序列标注模型算法比较

偶然浏览到一篇挺有实际参考价值的论文Nguyen and Guo(2007)。该文比较了一些模型和算法在词性标注和OCR任务上的性能,包括HMM、CRF、AP、Structured SVM、M3N、SEARN算法以及SLE算法,对算法选型很有指导意义。这篇博客随手记录一些要点。结构化学习模型多分类SVM在论文中用做基线模型,大意是把序列标注问题退化成多个分类问题。这里的phi是...

2018-08-30 15:21:13 2196

转载 机器学习之条件随机场(CRF)

什么是CRFCRF即条件随机场(Conditional Random Fields),是在给定一组输入随机变量条件下另外一组输出随机变量的条件概率分布模型,它是一种判别式的概率无向图模型,既然是判别式,那就是对条件概率分布建模。CRF较多用在自然语言处理和图像处理领域,在NLP中,它是用于标注和划分序列数据的概率化模型,根据CRF的定义,相对序列就是给定观测序列X和输出序列Y,然后通过定义...

2018-08-30 15:16:41 813

转载 基于规则和检索的聊天机器人引擎

第一篇传送门:《聊天机器人的发展状况与分类》。在上一篇文章中,介绍了聊天机器人目前的发展。本篇主要介绍基于规则的,检索的聊天机器人引擎 - Bot Engine.问题域Speech to Text => Logic => Text to Speech  STT和TTS,目前有很多厂商提供技术产品: Speech to Text 语音识别技术 Google Cl...

2018-08-29 18:01:18 2971

原创 主流分词工具性能测试结果对比

JiebaTime expenditure: 159.01109504699707Accuracy score: 0.8949003450398567Macro f1 score: 0.8539702787662644Micro f1 score: 0.8949003450398567Classification report:              precision    re...

2018-08-28 09:56:27 2537

转载 从n-gram中文文本纠错,到依存树中文语法纠错以及同义词查找

前记        本文简单地讲解如何使用n-gram模型结合汉字拼音来作中文错别字纠错,然后介绍最短编辑距离在中文搜索纠错方面的应用;最后从依赖树入手讲解如何作文本长距离纠错(语法纠错),并从该方法中得到一种启示,利用依赖树的特点结合ESA算法来做同义词的查找。n-gram模型        在中文错别字查错情景中,我们判断一个句子是否合法可以通过计算它的概率来得到,假设一个句子S ...

2018-08-24 10:54:15 1865

转载 Ubuntu16.04安装Redis

前言Redis是常用基于内存的Key-Value数据库,比Memcache更先进,支持多种数据结构,高效,快速。用Redis可以很轻松解决高并发的数据访问问题;作为实时监控信号处理也非常不错。环境Ubuntu 16.04安装Redis服务器端~ sudo apt-get install redis-server安装完成后,Redis服务器会自动启动,我们检查Redis服务...

2018-08-23 16:41:21 134

转载 #####好好好#####多轮对话之对话管理:Dialog Management(核心技术)

作者丨徐阿衡学校丨卡耐基梅隆大学硕士研究方向丨QA系统本文经授权转载自知乎专栏「徐阿衡-自然语言处理」。开始涉猎多轮对话,这一篇想写一写对话管理(Dialog Management),感觉是个很庞大的工程,涉及的知识又多又杂,在这里只好挑重点做一个引导性的介绍,后续会逐个以单篇形式展开。  放一张多轮语音对话流程图,理解下 DM 在整个对话流程中处于什么地位。 ...

2018-08-23 11:33:53 1519

转载 ###有点意思#10分钟构建人人都能学会的个性化聊天机器人-使用AIML

本文主要介绍什么是aiml, 如何python环境安装aiml,如何使用与制作一个属于自己的聊天机器人1 aiml初识1.1 demo展示用aiml写了一个简单的微信聊天机器人的demo,暂且叫小草聊天机器人吧哈哈哈,以下为部分聊天截图:(太懒了截图之后补上,我把测试版的聊天机器人放在我个人微信上了,想亲测的可以直接来我个人微信撩它–咳咳,但不准撩主人)1.2 什么是aimlA...

2018-08-23 09:49:06 727 2

转载 ####好好好####谈多轮对话(填槽方面)

序言以一周前的一条微博作为开始。一周前我讲:相对的,自然语言解析技术已经逐渐不再成为各家广义智能助理产品的核心竞争力,识别用户意图之后所提供的服务开始成为对话机器人差异化的核心。百度:对话系统的组成对于一个对话系统而言,我微博中所指的『后续服务』,就是上图中的 DST(对话状态维护)以及 Policy(动作候选排序),或者统一的称其为 DM(Dialogue Mannageme...

2018-08-22 14:37:46 5069

转载 ###好好好好好########呼叫中心FAQ

1、 什么叫呼叫中心? 答:“呼叫中心”是公司企业为用户服务而设立的。早在80年代,欧美等国的电信企业、航空公司、商业银行等为了密切与用户联系,应用计算机的支持、利用电话作为与用户交互联系的媒体,设立了”呼叫中心“(call center),也可叫做“电话中心”,实际上就是为用户服务的“服务中心”。 现代的呼叫中心又叫作客户服务中心,它是一种基于CTI技术、充分利用通信网和...

2018-08-22 10:28:27 1174

转载 国内外优秀呼叫中心系统简介

2018-08-22 09:35:53 2446

转载 评分卡的建立方法——分箱、WOE、IV、分值分配

信用评分卡模型在国外是一种成熟的预测方法,尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用,其原理是将模型变量WOE编码方式离散化之后运用logistic回归模型进行的一种二分类变量的广义线性模型。       本文重点介绍模型变量WOE以及IV原理,为表述方便,本文将模型目标标量为1记为违约用户,对于目标变量为0记为正常用户;则WOE(weight of Evidence)其实...

2018-08-22 09:10:36 9299 2

转载 评分卡的建立方法——分箱、WOE、IV、分值分配

本文主要讲“变量选择”“模型开发”“评分卡创建和刻度”变量分析首先,需要确定变量之间是否存在共线性,若存在高度相关性,只需保存最稳定、预测能力最高的那个。需要通过 VIF(variance inflation factor)也就是 方差膨胀因子进行检验。变量分为连续变量和分类变量。在评分卡建模中,变量分箱(binning)是对连续变量离散化(discretization)的一种称呼。...

2018-08-22 09:06:04 11129

转载 #####好好好##### 双端 LSTM 实现序列标注(分词)

@author: huangyongye@creat_date: 2017-04-19前言本例子主要介绍如何使用 TensorFlow 来一步一步构建双端 LSTM 网络(听名字就感觉好腻害的样子),并完成序列标注的问题。先声明一下,本文中采用的方法主要参考了【中文分词系列】 4. 基于双向LSTM的seq2seq字标注这篇文章。该文章用 keras 框架来实现的双端 LSTM,在本例中,...

2018-08-16 11:51:32 948 1

转载 什么是Tensor

tensor是tensorflow基础的一个概念——张量。Tensorflow用到了数据流图,数据流图包括数据(Data)、流(Flow)、图(Graph)。Tensorflow里的数据用到的都是tensor,所以谷歌起名为tensorflow。下面介绍张量几个比较重要的概念张量的维度(秩):Rank/OrderRank为0、1、2时分别称为标量、向量和矩阵,Rank为3时是3阶张量,R...

2018-08-16 11:04:28 2401

转载 Tensor(tf.Tensor)

Tensor类应该是最基本最核心的数据结构了,他表示的是一个操作的输出,但是他并不接收操作输出的值,而是提供了在TensorFlow的Session中计算这些值的方法。Tensor类主要有两个目的:1.一个Tensor能够作为一个输入来传递给其他的操作(Operation),由此构造了一个连接不同操作的数据流,使得TensorFLow能够执行一个表示很大,多步骤计算的图。2.在图被“投放...

2018-08-16 10:23:16 5664

转载 对开发来讲,业务重要还是技术重要?

很多开发者为天天写业务代码无暇提升技术而焦虑、苦恼,比如:又如:又如:再如:那么,作为开发者,到底该怎么面对“写业务代码”这件事呢?今天我们就从以下几个方面聊聊这个话题:什么是业务 业务和技术的关系 业务和因解决业务而衍生的业务 对业务的态度因你在团队中的角色而不同 如何从写业务代码中跳出来,做你所谓的有技术含量的工作我们先来看看,什么是业务。...

2018-08-14 14:06:02 1930

转载 Spark : 基本架构及原理

Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)...

2018-08-13 16:56:27 252

转载 Spark性能调优-总结分享

1、Spark调优背景目前Zeppelin已经上线一段时间,Spark作为底层SQL执行引擎,需要进行整体性能调优,来提高SQL查询效率。本文主要给出调优的结论,因为涉及参数很多,故没有很细粒度调优,但整体调优方向是可以得出的。环境:服务器600+,spark 2.0.2,Hadoop 2.6.02、调优结果调优随机选取线上9条SQL,表横轴是调优测试项目,测试在集群空闲情况下进行...

2018-08-10 11:54:42 479

转载 NLP+词法系列(一)︱中文分词技术小结、几大分词引擎的介绍与比较

笔者想说:觉得英文与中文分词有很大的区别,毕竟中文的表达方式跟英语有很大区别,而且语言组合形式丰富,如果把国外的内容强行搬过来用,不一样是最好的。所以这边看到有几家大牛都在中文分词以及NLP上越走越远。哈工大以及北大的张华平教授(NLPIR)的研究成果非常棒!但是商业应用的过程中存在的以下的问题:1、是否先利用开源的分词平台进行分词后,再自己写一些算法进行未登录词、歧义词的识别?2、或...

2018-08-07 15:36:31 941

转载 中文纠错实战

假设有这么一个场景,医生开处方的时候,可能写错药品和疾病名称,需要程序自动化纠错例如:曲米新乳膏和二甲双瓜和双黄连    曲米新乳膏 ==> 曲咪新乳膏    二甲双瓜 ==> 二甲双胍  怎么做呢?直觉告诉我们,应该有一个数据源,包含所有的药品疾病名称。1、数据抓取      寻医问药 http://www.xywy.com/    丁香园 h...

2018-08-07 14:09:03 5204

转载 中文词语自动纠错_编辑距离

idea from here这是一篇使用编辑距离对英文词语就行简单纠错的文章。code:import refrom collections import Counterdef words(text): return re.findall(r'\w+', text.lower())WORDS = Counter(words(open('big.txt').read()))...

2018-08-07 14:06:15 2062 1

转载 案例:恒丰银行——大数据实时流处理平台

恒丰银行于2016年1月完成了传统数据仓库向大数据平台数据仓库的迁移,以新的数据仓库平台为基础,结合行内的通用文件传输平台、统一调度平台,规范了源数据系统的数据报送,梳理构建了新的数据模型,大数据平台解决了传统数仓在批量数据处理能力的不足,在相关任务上体验到了从数小时到十几分钟的提升。大数据平台解决了大数据特征中四个V的大数据量(Volume)的处理,我们还需要引入实时处理技术能覆盖数据多样性...

2018-08-02 13:54:56 9598

转载 ####案例 车辆实时监控系统####在云上搭建大规模实时数据流处理系统

在大数据时代,数据规模变得越来越大。由于数据的增长速度和非结构化的特性,常用的软硬件工具已无法在用户可容忍的时间内对数据进行采集、管理 和处理。本文主要介绍如何在阿里云上使用Kafka和Storm搭建大规模消息分发和实时数据流处理系统,以及这个过程中主要遭遇的一些挑战。实践主要立 足建立一套汽车状态实时监控系统,可以在阿里云上立即进行部署。   一、实时大数据处理利器——Storm和Kaf...

2018-08-02 10:31:21 2429

转载 大型网站架构系列:20本技术书籍推荐

学习是技术人员成长的基础,本次分享20本技术方面的书籍,这些书不是每一本都是经典,但是每一本都有其特点。以下20本大部分本人都看过,因此推荐给大家。(本次推荐的20本只是一个参考,比如像Head First,Java编程思想等经典书籍是大家都知道,因此不在推荐之列)本次分享大纲大型网站架构系列 分布式系统系列 BAT技术文学系列 架构设计系列 本次分享总结一、大型网站架构系列...

2018-08-01 17:22:10 1026

转载 对话机器人技术简介:问答系统、对话系统与聊天机器人

文章问题一些地方论文格式写的是(作者, 论文标题, 年份) 部分地方的说法和示例可能还有待推敲对话机器人技术简介自从iPhone 4S开始内置Siri,到现在各种智能音箱,或者扎克伯格说自己做的智能管家, 我认为都算是对话机器人的一类。以苹果的Siri和亚马逊的Echo为例,它实际上是一套非常复杂的智能系统,而对话机器人是其中一个界面。 有些文献或者商业机构把这部分称为Conver...

2018-08-01 16:53:08 9186 1

转载 #####好好好好###### 什么是我所说的 Conversational Robot

包括 Dialogue System, QA System, Chatbot 简述。 下面大部分文字是整体的介绍,当然要完全把这三个部分都详细说完,可能就够一本书了,没几百篇论文的阅读出不来。 主要是因为每个系统的每个实现方法经常都是独立的一个领域,而很少有介绍完整成品的东西,也几乎没有完整的书籍。Conversational Robot 的来历主要是为了避免dialogue和chat这两...

2018-08-01 16:25:50 458

转载 分布式架构--基本思想汇总

在互联网大行其道的今天,各种分布式系统已经司空见惯。搜索引擎、电商网站、微博、微信、O2O平台。。凡是涉及到大规模用户、高并发访问的,无一不是分布式。关于分布式系统,并没有一个标准答案,说某某架构一定是最好的。不同的业务形态所面对的挑战不一样,使用的架构设计也不一样,通常都需要具体业务具体分析。但不管那种业务,不管何种分布式系统,有一些基本的思想还是相通的。本文将对这些基本思想进行一个梳理...

2018-08-01 11:54:14 387

转载 大型分布式网站架构技术总结

本文是学习大型分布式网站架构的技术总结。对架构一个高性能,高可用,可伸缩,可扩展的分布式网站进行了概要性描述,并给出一个架构参考。一部分为读书笔记,一部分是个人经验总结。对大型分布式网站架构有很好的参考价值。(如果感觉对大家有帮助,请帮忙点推荐,谢谢。本博客会逐步推出一系列的关于大型分布式网站架构,设计模式,架构模式方面的系列文章,交流群:466097527)  本次分享大纲如下大型网站的...

2018-08-01 11:21:55 246

知网Hownet情感词典.zip

该资料包含知网情感相关的词典,分为中英文单词表,每种都梳理完毕,并整理成单独文件,非常方便,有需要的话,请下载使用。

2020-05-09

mnist.pkl.gz数据文件

mnist.pkl.gz数据文件直接下载拷贝到keras的dataset下方便许多

2017-01-10

近红外猕猴桃测试分类数据

仅供分类算法测试用数据.数据内容为相隔两天的软的猕猴桃的近红外测试数据,标签为-1 和1,可以作为一个不同时间的猕猴桃的分类数据

2016-10-24

ROC曲线 源代码包

非常齐全的各类函数包,想画什么样的ROC曲线,都有相应代码,可以自己学习,也可以二次开发进行定制。

2015-10-13

基于tiny210的SD卡MP3播放器系统代码

一个小小的例程,如题所述,可以完美运行,需要的同学下下来学习下~

2015-07-17

机器学习实战源代码

这是机器学习实战,树上的全部例子代码,需要的同学可以下下来看看,帮助学习。

2015-07-17

基于FPGA的视频图像采集系统的设计与实现

基于FPGA的视频图像采集系统的设计与实现,提出了可行的基于FPGA的采集系统的设计和实现方法。

2013-05-06

多人物识别

为多人物检测提出了一种研究方法,提出了算法设计等

2013-05-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除