自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

MachineLP的专栏

成功收获成果,失败收获智慧,投入收获快乐!

原创 MachineLP的CV与NLP

深度学习这些坑你都遇到过吗? (1)检测 Faster RCNN:RPN,anchor,sliding windows DL杂记:YOLOV3之禅 (2)识别 tf40:图像检索(triplet_loss)之Conditional Similarity Networks (3)...

2020-05-17 11:07:03 796 0

原创 MachineLP好文推荐

MachineLP: 其实事物发展有自己的潮流和规律,当你身处潮流之中的时候,要紧紧抓住潮流的机会,想办法脱颖而出,即使没有成功,也会更加洞悉时代的脉搏,收获珍贵的知识和经验。而如果潮流已经退去,这个时候再去往这个方向上努力,只会收获迷茫与压抑,对时代、对自己都没有什么帮助。 但是时代的浪潮犹如...

2019-11-02 10:22:37 515 0

原创 MachineLP博客目录

MachineLP: 其实事物发展有自己的潮流和规律,当你身处潮流之中的时候,要紧紧抓住潮流的机会,想办法脱颖而出,即使没有成功,也会更加洞悉时代的脉搏,收获珍贵的知识和经验。而如果潮流已经退去,这个时候再去往这个方向上努力,只会收获迷茫与压抑,对时代、对自己都没有什么帮助。 ...

2017-11-02 10:48:28 25911 8

原创 [placeholder] 逻辑回归(LR)

2020-05-17 22:40:51 35 0

原创 [placeholder] 机器学习基础知识

2020-05-17 22:37:24 37 0

原创 [文本语义相似] 基于simhash相似度

文本相似在问答系统中有很重要的应用,如基于知识的问答系统(Knowledge-based QA),基于文档的问答系统(Documen-based QA),以及基于FAQ的问答系统(Community-QA)等。像对于问题的内容,需要进行相似度匹配,从而选择出与问题最接近,同时最合理的答案。本节介绍...

2020-05-07 10:35:32 159 0

原创 [文本语义相似] 基于编辑距离相似度

文本相似在问答系统中有很重要的应用,如基于知识的问答系统(Knowledge-based QA),基于文档的问答系统(Documen-based QA),以及基于FAQ的问答系统(Community-QA)等。像对于问题的内容,需要进行相似度匹配,从而选择出与问题最接近,同时最合理的答案。本节介绍...

2020-05-07 10:31:23 126 0

原创 [文本语义相似] 基于Jaccard相似度

文本相似在问答系统中有很重要的应用,如基于知识的问答系统(Knowledge-based QA),基于文档的问答系统(Documen-based QA),以及基于FAQ的问答系统(Community-QA)等。像对于问题的内容,需要进行相似度匹配,从而选择出与问题最接近,同时最合理的答案。本节介绍...

2020-05-07 10:09:20 138 0

原创 [文本语义相似] 基于bert的余弦距离(bert4keras实现)

文本相似在问答系统中有很重要的应用,如基于知识的问答系统(Knowledge-based QA),基于文档的问答系统(Documen-based QA),以及基于FAQ的问答系统(Community-QA)等。像对于问题的内容,需要进行相似度匹配,从而选择出与问题最接近,同时最合理的答案。本节介绍...

2020-05-04 12:25:29 118 0

原创 [图灵联邦] 视频点击预测大赛

比赛链接及其数据下载: https://www.turingtopia.com/competitionnew/detail/e4880352b6ef4f9f8f28e8f98498dbc4/sketch Top1:https://github.com/ouc16020021031/video-...

2020-05-04 10:23:30 90 0

原创 [天池比赛] Multimodalities Recall

比赛链接及其数据下载: https://tianchi.aliyun.com/competition/entrance/231786/information base model:(该base是Do大哥一小时搞定的,感谢) 不finetune bert是0.55左右,finetunebe...

2020-05-04 09:43:53 178 0

原创 [文本语义相似] 基于ngram-tf-idf的余弦距离(gensim实现)

文本相似在问答系统中有很重要的应用,如基于知识的问答系统(Knowledge-based QA),基于文档的问答系统(Documen-based QA),以及基于FAQ的问答系统(Community-QA)等。像对于问题的内容,需要进行相似度匹配,从而选择出与问题最接近,同时最合理的答案。本节介绍...

2020-05-04 09:31:30 119 0

原创 [文本语义相似] 基于tf-idf的余弦距离(gensim实现)

文本相似在问答系统中有很重要的应用,如基于知识的问答系统(Knowledge-based QA),基于文档的问答系统(Documen-based QA),以及基于FAQ的问答系统(Community-QA)等。像对于问题的内容,需要进行相似度匹配,从而选择出与问题最接近,同时最合理的答案。本节介绍...

2020-05-04 09:25:23 131 0

原创 [文本语义相似] 基于bow的余弦距离(gensim实现)

文本相似在问答系统中有很重要的应用,如基于知识的问答系统(Knowledge-based QA),基于文档的问答系统(Documen-based QA),以及基于FAQ的问答系统(Community-QA)等。像对于问题的内容,需要进行相似度匹配,从而选择出与问题最接近,同时最合理的答案。本节介绍...

2020-05-04 09:18:53 51 0

原创 [文本语义相似] 基于ngram-tf-idf的余弦距离(sklearn实现)

文本相似在问答系统中有很重要的应用,如基于知识的问答系统(Knowledge-based QA),基于文档的问答系统(Documen-based QA),以及基于FAQ的问答系统(Community-QA)等。像对于问题的内容,需要进行相似度匹配,从而选择出与问题最接近,同时最合理的答案。本节介绍...

2020-04-29 22:42:03 137 0

原创 [文本语义相似] 基于tf-idf的余弦距离(sklearn实现)

文本相似在问答系统中有很重要的应用,如基于知识的问答系统(Knowledge-based QA),基于文档的问答系统(Documen-based QA),以及基于FAQ的问答系统(Community-QA)等。像对于问题的内容,需要进行相似度匹配,从而选择出与问题最接近,同时最合理的答案。本节介绍...

2020-04-29 22:36:54 84 0

原创 [文本语义相似] 基于bow的余弦距离(sklearn实现)

文本相似在问答系统中有很重要的应用,如基于知识的问答系统(Knowledge-based QA),基于文档的问答系统(Documen-based QA),以及基于FAQ的问答系统(Community-QA)等。像对于问题的内容,需要进行相似度匹配,从而选择出与问题最接近,同时最合理的答案。本节介绍...

2020-04-29 20:16:56 71 0

原创 [文本语义相似] 基于Word2Vec的wmdistance (Word Mover Distance)

文本相似在问答系统中有很重要的应用,如基于知识的问答系统(Knowledge-based QA),基于文档的问答系统(Documen-based QA),以及基于FAQ的问答系统(Community-QA)等。像对于问题的内容,需要进行相似度匹配,从而选择出与问题最接近,同时最合理的答案。本节介绍...

2020-04-29 20:08:46 113 0

原创 [语音识别] 单音素、三音素、决策树

了解单音素、三音素、决策树主要从几个问题出发: (1)什么是音素? 以前的音标现在也可以叫音素,而且现在正广泛的把音标叫音素。 每一种语言中的音素都是不一样的,即使是同种语言中,方言的音素也是不一样的。音素应该与人体的发音严格的区分开,因为音素是指一个有规律的有限的发音系统而人体的发音则是无限...

2020-03-23 22:19:06 352 0

原创 [语音识别] HMM理论理解+实战

前部分既然实战,那就直接代码,理论不清楚的看这里: (1)04 隐马尔可夫模型 (HMM) :https://blog.csdn.net/u014365862/article/details/105007027 (2)一个隐马尔科夫模型的应用实例:中文分词:https://blog.csdn.n...

2020-03-23 19:25:18 304 0

原创 [语音识别] 语音识别系统化整理

[语音识别] 01 语音识别概述 [语音识别] 02 语音信号处理及特征提取 [语音识别] 03 GMM以及EM算法 [语音识别] 04 隐马尔可夫模型 (HMM) [语音识别] 05 基于GMM-HMM的语音识别系统(单音素、三音素) [语音识别] 06 基于DNN-HMM的语音识别系...

2020-03-22 15:59:32 1106 2

原创 [语音识别] 11 从入门到精通

http://sox.sourceforge.net/ 时域重采样,同时改变语速与语调 使用波形相似重叠相加算法(WSOLA),只改变语速 频域拉伸与压缩,只改变语调 Kaldi学习经验: http://kaldi-asr.org/ Kaldi学习—资料: 1...

2020-03-22 13:15:00 258 0

原创 [语音识别] 10 端到端语音识别

端到端语音识别

2020-03-21 11:52:53 218 0

原创 [语音识别] 09 区分性训练和LF-MMI

区分性训练和LF-MMI

2020-03-21 11:52:19 151 0

原创 [语音识别] 08 基于WFST的解码器

基于WFST的解码器

2020-03-21 11:51:48 113 0

原创 [语音识别] 07 语言模型

语言模型

2020-03-21 11:51:16 163 0

原创 [语音识别] 06 基于DNN-HMM的语音识别系统

基于DNN-HMM的语音识别系统

2020-03-21 11:50:29 208 0

原创 [语音识别] 05 基于GMM-HMM的语音识别系统(单音素、三音素)

基于GMM-HMM的语音识别系统

2020-03-21 11:49:57 285 0

原创 [语音识别] 04 隐马尔可夫模型 (HMM)

隐马尔可夫模型(HMM)

2020-03-21 11:49:25 288 0

原创 [语音识别] 03 GMM以及EM算法

GMM以及EM算法

2020-03-21 11:48:52 290 0

原创 [语音识别] 02 语音信号处理及特征提取

http://www.speech.cs.cmu.edu/15-492/slides/03_mfcc.pdf

2020-03-21 11:48:01 446 0

原创 [语音识别] 01 语音识别概述

语音识别概述

2020-03-21 11:47:00 553 0

原创 LP love tensorflow & spark

昨天看到一片文章激发起了我很多兴趣点,文章的题目是 Spark Love Tensorflow,心想何止如此,LPlove tensorflow & spark,之前谜之Love Tensorflow,花了三年的时候把它收入麾下,19年开始接触spark,同样激发出不少火花,同时学习了sc...

2020-03-20 09:44:48 292 0

原创 BERT可以使用无监督的预训练模型做文本相似度任务吗?

这个问题是个好问题, 也困扰了我好久,一般不熟悉的人会使用word2vector的思路考虑,那么这个问题显然是成立的,但是本质上是错的,不能这么去用。 看一下大神们的回答: (1)先看一下苏神的: (大神说话就是硬气) 看了楼主的问题,以及你在前面几个回答下的评论,发现你总是反复反问一个事情:取...

2020-03-12 19:10:11 336 0

原创 OpenCV学习笔记

machinelp的OpenCV学习笔记专栏:https://zhuanlan.zhihu.com/c_1092062070664663040 ... Solution code_001 OpenCV之图片读取与显示 code_002 OpenCV之图片灰度化 ...

2020-03-01 22:06:08 1223 4

原创 Attention 待更新

Attention 注意力机制可以描述为一个函数,这个函数将query和一组key-value对映射成一个输出。 Scaled Dot-Porduct Attention

2020-02-25 16:40:44 95 0

原创 [中文语音识别后文本加标点] 文本数据增强方法

数据增强技术在很多领域应用广泛,例如:在图像领域中有:旋转、反转、噪声、mixup、cutmix等等;在语音识别领域有:语音信号添加随机背景噪声、语谱图随机mask等等...... 在文本领域也有很多方法:其中ICLR 2019 workshop论文《EDA: Easy Data Augme...

2020-02-25 16:03:30 257 0

原创 Python | Mac下matplotlib中文显示乱码

解决matplotlib中文显示乱码找到一个简单的方法 对Mac来说,一部分字体放在了这里:/Library/Fonts/ 还有一部分在这里:/System/Library/Fonts/ 在使用的时候直接指定字体就好了: # coding=utf-8 from matplotlib....

2020-02-23 22:48:47 151 0

原创 [天池比赛] 新冠疫情相似句对判断

比赛链接:https://tianchi.aliyun.com/competition/entrance/231776/introduction?spm=5176.12281949.1003.2.4d7c2448gPLYCN 下面提供base和训练结果: # 绘图案例 an examp...

2020-02-23 22:23:25 723 0

原创 [中文语音识别后文本加标点] 维基百科数据下载和解析(xml->txt)

维基百科的中文语料库质量高、领域广泛而且开放,其每月会将所有条目打包供大家下载使用,可以点击: https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 直接下载最新版(也可以访问:https://...

2020-02-21 14:56:23 235 0

提示
确定要删除当前文章?
取消 删除