自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 资源 (2)
  • 收藏
  • 关注

转载 BERT(doing)

BERT 并不是一种新提出的算法,而是集前人之所能,解决了当时NLP model上存在的部分问题:并行计算问题梯度消失/爆炸前/后方向耦合1和2 transform 解决,model不是时序序列结构,但是保留时序结构的优点...

2021-01-13 16:24:19 370

原创 人类语言处理002

语音识别语音信号–>文字传统(无神经网络)使用词典进行:cat–>K AE T、man–>M AE N 等一些列将文本转换为发音的映射词典,缺点是无法囊括所有的token使用文字最小书写单位与发音的映射:英文中 文字的最小单位是字母、在中文中文字的最小单位是单个的汉字,缺点是同音字的迷惑性,需要模型可以捕获分析上下文的语境信息,来判断音–>字使用文字中可以表达语义的最小单位:如英文中的词根表示,缺点是需要专家知识,常人不一定能总结出这些规律语音信号–>文字

2021-01-12 13:06:27 111

原创 人类语言处理001

世界上仅有56%的语言有文字,而有很多信息是不以文字存在的,而以语音、口语等口口相传。1秒钟的语音包含16K次的采样,每次采样有256种可能(也就是说一次采样得到的信息需要使用8bit 进行存储)训练出模型(deep model 硬train一发)语音–>文字 语音识别、语音助手文字–>语音语音–>语音文字–>文字语音–>类别文字–>类别...

2021-01-11 20:46:49 144

原创 TF-IDF算法的学习记录

可以用于文本相似度计算(基于关键词)词在一定程度上反映了文本的语义,例如“阿莫西林的应用”,这句话可以分词为 阿莫西林 的 应用。一人的思维来看的话,这句话中最具有代表性的词是“阿莫西林”,其次是“应用”,对于人类来说最后的“的”是可有可无的。那么在计算机中,应该怎么表现这个在人类看来显而易见的排序呢?第一种思路直接使用文本中的词频来表示文本,即[TF1,TF2……,TFn](所有语料的unique word数量为n, ∑TFi = 1),那么这样来计算两文本的相似度就可以使用两个词频向量进行计算。

2020-12-21 17:14:21 102

原创 nginx在安装replace--filter-nginx-module时,库文件路径找不到

安装nginx时,需要先安装其依赖项https://github.com/openresty/replace-filter-nginx-module#installation 中提供的安装方式是,在安装nginx之前,先安装replace–filter-nginx-module的依赖库sregex,但是安装sregex之后,对nginx进行./configure --add-module=/pa...

2020-02-17 11:06:19 563

《贝叶斯统计》第七章贝叶斯计算.pdf

《贝叶斯统计》第七章:MCMC介绍、贝叶斯分析中的直接抽样方法、Dibbs抽样、M-H算法《贝叶斯统计》第七章:MCMC介绍、贝叶斯分析中的直接抽样方法、Dibbs抽样、M-H算法

2020-11-23

peacock.pdf

12月14日,腾讯广点通高级研究员靳志辉在2014中国大数据技术大会上发表演讲,题为《Peacock:大规模主题模型及其在腾讯业务中的应用》

2020-11-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除