自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

J~的博客

Keep Moving!

  • 博客(123)
  • 资源 (3)
  • 收藏
  • 关注

原创 关于对话系统(任务式/检索式/生成式)的若干总结

最近一直在调研对话系统,细细研究发现里面的细分知识点非常多,任务式/检索式/生成式对话系统每个里面的都有不同特点及方法,因此在这里总结下自己的研究成果。Intro按照对话系统的技术架构来分, 人机对话系统可以分为任务型对话系统和非任务型对话系统两大类, 在实际商业应用中这 2 种对话方式常常结合在一起使用. 任务型对话通过交互的方式帮助用户完成一项或多项特定的任务, 系统能够完成的任...

2020-04-24 11:04:43 3745 1

原创 NLP领域相关博文汇总

自己总结的相关内容目录:1.T5: Text-To-Text Transfer Transformer2.Bert改进模型汇总(1)3.Byte Pair Encoding(BPE)/WordPiece算法介绍4.Bert改进模型汇总(2)5.Bert改进模型汇总(3)6.Bert改进模型汇总(4)7.Bert改进模型汇总(5)大佬优秀文章收藏1.预训练语...

2020-02-05 11:46:59 381

原创 深度学习相关博文汇总

1.为什么神经网络参数不能全部初始化为全0?2.常见的深度学习参数初始化方法总结3.ResNet介绍4.为什么CNN中的卷积核要旋转180度?5.label smooth/mixup——深度学习中的一种防止过拟合方法...

2020-01-31 18:13:46 198

原创 机器学习相关博文汇总

现汇总下自己总结过的MachineLearning知识点文章:1.为什么bagging降低方差,boosting降低偏差?2.机器学习中的特征选择(过滤式,包裹式,嵌入式)3.期望风险、经验风险与结构风险4.局部加权线性回归(Locally weighted linear regression5.主成分分析(PCA)/线性判别分析(LDA)总结6.降维算法(PCA/LDA...

2020-01-30 22:10:20 172

原创 布尔模型(Boolean Model)

最早的IR模型,也是应用最广泛的模型;目前仍然应用于商业系统中;Lucene是基于布尔(Boolean)模型的。布尔模型描述文档D表示:一个文档被表示为关键词的集合查询式Q表示:查询式(Queries)被表示为关键词的布尔组合,用“与、或、非”连接起来,并用括弧指示优先次序匹配F:一个文档当且仅当它能够满足布尔查询式时,才将其检索出来检索策略基于二值判定标准算法R:根据匹配框架F判定相关, 计算相关度排名,这里不涉及doc得分和tfidf,只是boolean关系。查询表示在布尔模型中,

2021-07-01 14:42:40 3352

原创 Neo4j国内下载镜像地址,速度超快

Neo4j官网的下载速度实在是太慢了,这个镜像里面版本很全,速度也很稳定,强烈推荐使用!地址http://doc.we-yun.com:1008/

2021-01-26 11:15:32 2345

原创 pandas清空DataFrame

df.drop(df.index, inplace=True)df=df.drop(index=df.index)DataFrame内的数据会被清空,但会保留表头

2020-12-15 16:44:59 11288 1

原创 pandas数据类型转为str

data = {'玩具':['车','飞机','轮船'], '数量':[3,2,5], '价格':[100,90,80]} df = DataFrame(data)df['数量'] = df_data['数量'].apply(str)

2020-12-15 16:36:09 7925

原创 pandas的数据类型转换

当我们做数据分析时,确保自己使用的是正确的数据类型,这一点很重要。而在pandas中,一般情况下会根据我们导入的数据,自动分配最合适的数据类型。但是有时候pandas也会犯错,这时候我们就需要diy自定义数据类型。本文主要将pandas的dtype,如何进行数据类型的操作。pands数据类型数据类型是编程语言的基础性概念,ta会告诉电脑如何存储数据、如何操作数据。例如,当我们给程序两个数字,进行5+10操作时, 程序要能理解这是两个整数,且知道整数是可以进行加法操作。而当有两个字符...

2020-11-23 15:02:52 11329 4

原创 python-Levenshtein常用函数

编辑距离Levenshtein.distance(str1, str2)汉明距离计算汉明距离。要求str1和str2必须长度一致。是描述两个等长字串之间对应位置上不同字符的个数。Levenshtein.hamming(str1, str2)莱文斯坦比计算公式r = (sum – ldist) / sum, 其中sum是指str1 和 str2 字串的长度总和,ldist是类编辑距离。注意这里是类编辑距离,在类编辑距离中删除、插入依然+1,但是替换+2。Leven...

2020-09-04 15:29:55 3328

原创 安装python-Levenshtein包时遇到的问题

环境:Python3.6直接用pip installpython-Levenshtein时报错,提示需要安装 Microsoft Visual C++ 14.0。error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools安装Microsoft Vis...

2020-09-04 15:11:35 1752 3

原创 编辑距离算法之Jaro-Winkler Distance

概述Jaro-Winkler Distance是一个度量两个字符序列之间的编辑距离的字符串度量标准,是由William E. Winkler在1990年提出的Jaro Distance度量标准的一种变体。Jaro Distance是两个单词之间由一个转换为另一个所需的单字符转换的最小数量。Jaro-Winkler Distance通过前缀因子使Jaro Distance相同时共同前缀长度越大的相似度越高。Jaro–Winkler Distance越小,两个字符串越相似。如果分数是0,则表示完全不同,分数

2020-09-04 14:53:30 5776

原创 文本相似度的若干计算方法及Python实现

最近工作中正好遇到文本相似度问题,尝试了好几种方法,在这里稍微总结下吧,也让自己理解更透彻些。1 余弦相似度import numpy as npdef cos_sim(vector_a, vector_b): vector_a = np.mat(vector_a) vector_b = np.mat(vector_b) num = float(vector_a * vector_b.T) denom = np.linalg.norm(ve...

2020-09-02 17:45:10 750

原创 Papers

NLP1.Beyond Accuracy Behavioral Testing of NLP Models with CheckListACL2020 Best Parper,本文主要介绍的是NLP的评测方法,不同于以往的从语料中分为一部分test data来评价模型,而是介绍CHECKLIST这种新式评测方法。...

2020-07-10 10:31:52 150

原创 好文分享(NLP/机器学习/深度学习)

记录下平常在公众号,zhihu上看到的不错的技术文章。搜索1.医疗搜索中的Query词权重算法探索2.BERT在美团搜索核心排序的探索和实践NLP1.1分钟|聊聊Transformer的并行化

2020-07-10 10:02:51 221

原创 Git官网下载过慢的解决方法

大家每次从官网下载Git时速度都非常慢,平均只有几十KB/S,现在可以从这个网站来下载。地址:https://npm.taobao.org/mirrors/git-for-windows/因为是按时间升序排序,所以Git船新版本在页面最下方,点开某版本后选择自己相应的版本即可。...

2020-07-08 10:06:01 480

原创 Learning to rank学习

IntroLTR(Learning to rank)是一种监督学习(SupervisedLearning)的排序方法,已经被广泛应用到推荐与搜索等领域。传统的排序方法通过构造相关度函数,按照相关度进行排序。然而,影响相关度的因素很多,比如tf,idf等。传统的排序方法,很难融合多种因数,比如向量空间模型以tf*idf作为权重构建相关度函数,就很难利用其他信息了,并且如果模型中参数比...

2020-04-30 16:43:55 657 1

原创 任务式对话系统总结(1)---自然语言理解

任务式对话系统基本框架如下图所示,这里我对语音领域不是很熟悉,所以本文不做具体介绍,因此任务式对话系统基本框架主要包括自然语言理解(NLU),对话管理器( DM) 、语言生成(NLG)。下面内容就具体介绍下这几个组件。1 自然语言理解NLU完成的具体任务在不同对话系统中差异较大,比较共性的能力包括领域识别、意图识别、对话行为识别、槽位识别和槽位值抽取。领域识别是将用户...

2020-04-28 17:20:55 2988

原创 Python中的*arg与**kwargs参数的用法

最近面试的时候被问到了这个问题,自己也没回答上来,因此在这里记录一下。在python中,这两个是python中的可变参数,*arg表示任意多个无名参数,类型为tuple,**kwargs表示关键字参数,类型为dict。def exmaple2(required_arg, *arg, **kwarg): if arg: print "arg: ", arg ...

2020-04-26 16:31:49 418

原创 生成式对话系统总结(1)

1 自然语言生成自然语言生成的作用是组织适当的应答语句,将系统的答复转换成用户能够理解的自然语言, 通常有 3 种解决方案: 基于人工模板( rule-based) 、基于知识库检索( query-based) 和基于深度学习的序列到序列(Sequence-to-Sequence) 生成模型。语言生成方案的优缺点和适用场景总结如下表所示。Ref...

2020-04-24 15:02:30 5154 1

原创 diversity beam search

Seq2Seq中常用到的优化方法就是Beam Search,但是Beam Search的一个缺点就是生成的N个回答往往差异性很小,无法体现语言的多样性(比如文本摘要、机器翻译的生成文本,往往有不止一种表述方式)。最近看论文的时候发现Google提出的改进Beam Search方法,下面来稍微总结下。论文地址:https://arxiv.org/pdf/1610.02424.pdf具体...

2020-04-16 10:38:20 1238

原创 大厂对话系统文章汇总

最近主要在研究对话系统,看到很多大厂技术团队分享的文章,在此分享给大家。1.Trend Micro--基于Elasticsearch的智能客服机器人2.平安-智能问答系统:问句预处理、检索和深度语义匹配技术3.腾讯-智能问答技术及其应用4.思必驰-一文详解启发式对话中的知识管理5.贝壳找房-【WOT峰会回顾】人工智能和人工冰释前嫌6.微软-微软小冰对话机器人架构7.瓜子...

2020-04-13 17:06:24 335

原创 人工智能领域值得关注的会议

机器学习ICMLNIPSAISTATSUAIICLDNLPACLEMNLPCOLINGNAACLCVCVPRICCVDATA MININGKDDWSDMAIAAAIIJCAI期刊JMLRTKDEPAMI

2020-03-27 23:29:20 199

原创 Glove原理解析

在2013年Tomas Mikolov等人提出word2vec之后,2014年,Jeffrey Pennington, Richard Socher, Christopher D. Manning三人提出了GloVe算法[1][2][3]。其中,GloVe是Global Vector的缩写。在传统上,实现word embedding(词嵌入)主要有两种方法,Matrix Factorizat...

2020-03-25 16:36:19 1908

原创 关于drop out

1简介1.1dropout出现的原因在机器学习的模型中,如果模型的参数太多,而训练样本又太少,训练出来的模型很容易产生过拟合的现象。在训练神经网络的时候经常会遇到过拟合的问题,过拟合具体表现在:模型在训练数据上损失函数较小,预测准确率较高;但是在测试数据上损失函数比较大,预测准确率较低。过拟合是很多机器学习的通病。如果模型过拟合,那么得到的模型几乎不能用。为了解决过拟合问题...

2020-03-04 16:54:18 1202

原创 Feature-based和Fine-tune的区别

在Bert的论文中看到了Feature-based和Fine-tune这两种无监督的NLP学习方法,对这两个概念一直以来都不太理解,今天来总结下。Feature-basedFeature-based指利用语言模型的中间结果也就是LM embedding, 将其作为额外的特征,引入到原任务的模型中,例如在TagLM[1]中,采用了两个单向RNN构成的语言模型,将语言模型的中间结果。...

2020-02-14 11:14:20 5018

原创 Bert改进模型汇总(5)

目录DistillBert:a distilled version of BERT: smaller,faster, cheaper and lighterTinyBert:: DISTILLING BERT FOR NATURAL LANGUAGE UNDERSTANDINGReferenceDistillBert:a distilled version of BERT: s...

2020-02-11 15:32:54 1791

原创 Bert改进模型汇总(4)

目录ALBertIntroFactorized embedding parameterizationCross-layer parameter sharingSentence Order Prediction(SOP)Electra:Efficiently Learning an Encoder that Classifies Token Replacements Accu...

2020-02-11 14:49:47 2923

原创 Bert改进模型汇总(3)

目录SpanBert: Improving Pre-training by Representing and Predicting SpansSpanMaskingSpan Boundary ObjectiveRemove NextSentencePredictionRoBERTa:Robustly optimized BERT approachMoreData...

2020-02-11 09:49:52 4005

原创 label smooth/mixup——深度学习中的一种防止过拟合方法

LabelSmooth在常见的多分类问题中,先经过softmax处理后进行交叉熵计算,原理很简单可以将计算loss理解为,为了使得网络对测试集预测的概率分布和其真实分布接近,常用的做法是使用one-hot对真实标签进行编码,作者认为这种将标签强制one-hot的方式使网络过于自信会导致过拟合,因此软化这种编码方式。等号左侧:是一种新的预测的分布等号右侧:前半部分是对原分布乘...

2020-02-10 23:36:43 2371

原创 Bert改进模型汇总(2)

目录MASS:Masked Sequence to Sequence Pre-training for Language GenerationUNILM:UNIfied pre-trained Language ModelUnidirectional LMBidirectional LMSeq2Seq LMReferenceMASS:Masked Sequence to...

2020-02-10 23:06:39 1104

原创 Byte Pair Encoding(BPE)/WordPiece算法介绍

Subword算法如今已经成为了一个重要的NLP模型性能提升方法。自从2018年BERT横空出世横扫NLP界各大排行榜之后,各路预训练语言模型如同雨后春笋般涌现,其中Subword算法在其中已经成为标配。所以作为NLP界的小菜鸟,有必要了解下Subword算法的原理。1BPEBPE,(byte pair encoder)字节对编码,也可以叫做digram coding双字母组合编码,主要...

2020-02-05 23:37:36 5448 3

原创 Bert改进模型汇总(1)

目录IntroERNIE from BaiduERNIE from THUReferenceIntroBert自问世以来横扫NLP各大榜单,但Bert模型本身还存在着或多或少的问题,因此后续学术界也针对Bert的缺陷提出了各类改进模型,今天这篇文章我就大致总结下我所了解到的模型。首先先上两张图,总结的非常好ERNIE from Baidu论文地址htt...

2020-02-05 21:45:49 5891

原创 机器学习各类优化算法总结

目录1Intro2一阶优化算法2.1GradientdescentBatch Gradient DescentStochastic Gradient DescentMini-batch Gradient Descent2.2Momentum2.3Nesterov accelerated gradient(NAG)2.4AdaGrad2.5A...

2020-02-05 15:50:22 3936

原创 T5: Text-To-Text Transfer Transformer

总而言之就是一个集NLP之大成者的预训练模型,也只有Google这种土豪公司才玩得起了。。论文:Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer代码:https://github.com/google-research/text-to-text-transfer-tra...

2020-02-05 11:45:50 565

原创 为什么CNN中的卷积核要旋转180度?

目录1CNN介绍2WhyReference1CNN介绍推荐看这位大佬的文章:卷积思想理解、Convolutional Neural Network(CNN)卷积神经网络初探2WhyCNN(卷积神经网络)的误差反传(error back propagation)中有一个非常关键的的步骤就是将某个卷积(Convolve)层的误差传到前一层的池化(Pool)层上,因为...

2020-02-02 21:18:12 4877

原创 如何确定LDA主题模型中的主题个数?

1 基于经验主观判断、不断调试、操作性强、最为常用2 基于困惑度Perplexity该方法需要测测试集!3贝叶斯统计标准方法参考文献:Griffiths T L, Steyvers M. Finding Scientific Topics[J]. Proceedings of the National Academy of Sciences of the Unit...

2020-02-01 23:20:20 10228

原创 常见的深度学习参数初始化方法总结

目录1随机初始化2Xavier初始化3He初始化4高斯随机初始化 withBatchNorm5Pre-trainReference1随机初始化2Xavier初始化每层的权重初始化公式如下:上式为一个均匀分布,n_j为输入层的参数,n_(j+1)为输出层的参数Xavier的推导过程是基于几个假设的,其中一个是激活函数是线性的,...

2020-01-31 20:12:35 2967

原创 K-Means算法中k值及初始类簇中心点的选取

1 k值的选择手肘法手肘法的核心指标是SSE(sum of the squared errors,误差平方和),其中,Ci是第i个簇,p是Ci中的样本点,mi是Ci的质心(Ci中所有样本的均值),SSE是所有样本的聚类误差,代表了聚类效果的好坏。手肘法的核心思想是:随着聚类数k的增大,样本划分会更加精细,每个簇的聚合程度会逐渐提高,那么误差平方和SSE自然会逐渐变小。并且,当k...

2020-01-31 18:49:51 6803 1

原创 为什么神经网络参数不能全部初始化为全0?

参考这篇文章为什么神经网络参数不能全部初始化为全0?

2020-01-31 18:13:14 880

空间数据三维建模与可视化

本书以空间地质体和虚拟树木等复杂对象为目标,系统介绍三维地理信息系统中空间数据三维建模及可视化方法。主要内容包括三维地质建模方法、三维地质模型可视化、模型处理与三维交互、基于规则的树木三维建模、模型参数计算等

2018-05-14

华为编码规范和范例

华为编码规范和范例,大家可以下载看一看,学习一下大厂的编码规范!

2018-04-25

软件开发者路线图-从学徒到高手

作为一名软件开发者,你在奋力推进自己的职业生涯吗?面对今天日新月异和不断拓展的技术,取得成功需要的不仅仅是技术专长。为了增强专业性,你还需要一些软技能以及高效的学习技能。本书的全部内容都是关于如何修炼这些技能的。两位作者Dave Hoover和Adewale Oshineye给出了数十种行为模式,来帮你提高主要的技能。

2018-04-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除