qq_35337702-CSDN博客

转载 BERT(doing)

BERT 并不是一种新提出的算法，而是集前人之所能，解决了当时NLP model上存在的部分问题：并行计算问题梯度消失/爆炸前/后方向耦合1和2 transform 解决，model不是时序序列结构，但是保留时序结构的优点...

2021-01-13 16:24:19 370

语音识别语音信号–>文字传统（无神经网络）使用词典进行：cat–>K AE T、man–>M AE N 等一些列将文本转换为发音的映射词典，缺点是无法囊括所有的token使用文字最小书写单位与发音的映射：英文中文字的最小单位是字母、在中文中文字的最小单位是单个的汉字，缺点是同音字的迷惑性，需要模型可以捕获分析上下文的语境信息，来判断音–>字使用文字中可以表达语义的最小单位：如英文中的词根表示，缺点是需要专家知识，常人不一定能总结出这些规律语音信号–>文字

2021-01-12 13:06:27 111

原创人类语言处理001

世界上仅有56%的语言有文字，而有很多信息是不以文字存在的，而以语音、口语等口口相传。1秒钟的语音包含16K次的采样，每次采样有256种可能（也就是说一次采样得到的信息需要使用8bit 进行存储）训练出模型（deep model 硬train一发）语音–>文字语音识别、语音助手文字–>语音语音–>语音文字–>文字语音–>类别文字–>类别...

2021-01-11 20:46:49 144

原创 TF-IDF算法的学习记录

可以用于文本相似度计算（基于关键词）词在一定程度上反映了文本的语义，例如“阿莫西林的应用”，这句话可以分词为阿莫西林的应用。一人的思维来看的话，这句话中最具有代表性的词是“阿莫西林”，其次是“应用”，对于人类来说最后的“的”是可有可无的。那么在计算机中，应该怎么表现这个在人类看来显而易见的排序呢？第一种思路直接使用文本中的词频来表示文本，即[TF1，TF2……，TFn]（所有语料的unique word数量为n， ∑TFi = 1），那么这样来计算两文本的相似度就可以使用两个词频向量进行计算。

2020-12-21 17:14:21 102

原创 nginx在安装replace--filter-nginx-module时，库文件路径找不到

安装nginx时，需要先安装其依赖项https://github.com/openresty/replace-filter-nginx-module#installation 中提供的安装方式是，在安装nginx之前，先安装replace–filter-nginx-module的依赖库sregex,但是安装sregex之后，对nginx进行./configure --add-module=/pa...

2020-02-17 11:06:19 563

《贝叶斯统计》第七章贝叶斯计算.pdf

《贝叶斯统计》第七章：MCMC介绍、贝叶斯分析中的直接抽样方法、Dibbs抽样、M-H算法《贝叶斯统计》第七章：MCMC介绍、贝叶斯分析中的直接抽样方法、Dibbs抽样、M-H算法

2020-11-23

ｐｅａｃｏｃｋ.pdf

12月14日，腾讯广点通高级研究员靳志辉在2014中国大数据技术大会上发表演讲，题为《Peacock:大规模主题模型及其在腾讯业务中的应用》

2020-11-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

qq_35337702的博客

转载 BERT(doing)

原创人类语言处理002

原创人类语言处理001

原创 TF-IDF算法的学习记录

原创 nginx在安装replace--filter-nginx-module时，库文件路径找不到

《贝叶斯统计》第七章贝叶斯计算.pdf

ｐｅａｃｏｃｋ.pdf

空空如也

转载 BERT(doing)

原创 人类语言处理002

原创 人类语言处理001

原创 TF-IDF算法的学习记录

原创 nginx在安装replace--filter-nginx-module时，库文件路径找不到

《贝叶斯统计》第七章贝叶斯计算.pdf

ｐｅａｃｏｃｋ.pdf

空空如也

原创人类语言处理002

原创人类语言处理001