![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
文章平均质量分 51
qq_35337702
这个作者很懒,什么都没留下…
展开
-
BERT(doing)
BERT 并不是一种新提出的算法,而是集前人之所能,解决了当时NLP model上存在的部分问题:并行计算问题梯度消失/爆炸前/后方向耦合1和2 transform 解决,model不是时序序列结构,但是保留时序结构的优点...转载 2021-01-13 16:24:19 · 360 阅读 · 0 评论 -
人类语言处理002
语音识别语音信号–>文字传统(无神经网络)使用词典进行:cat–>K AE T、man–>M AE N 等一些列将文本转换为发音的映射词典,缺点是无法囊括所有的token使用文字最小书写单位与发音的映射:英文中 文字的最小单位是字母、在中文中文字的最小单位是单个的汉字,缺点是同音字的迷惑性,需要模型可以捕获分析上下文的语境信息,来判断音–>字使用文字中可以表达语义的最小单位:如英文中的词根表示,缺点是需要专家知识,常人不一定能总结出这些规律语音信号–>文字原创 2021-01-12 13:06:27 · 109 阅读 · 0 评论 -
人类语言处理001
世界上仅有56%的语言有文字,而有很多信息是不以文字存在的,而以语音、口语等口口相传。1秒钟的语音包含16K次的采样,每次采样有256种可能(也就是说一次采样得到的信息需要使用8bit 进行存储)训练出模型(deep model 硬train一发)语音–>文字 语音识别、语音助手文字–>语音语音–>语音文字–>文字语音–>类别文字–>类别...原创 2021-01-11 20:46:49 · 137 阅读 · 0 评论 -
TF-IDF算法的学习记录
可以用于文本相似度计算(基于关键词)词在一定程度上反映了文本的语义,例如“阿莫西林的应用”,这句话可以分词为 阿莫西林 的 应用。一人的思维来看的话,这句话中最具有代表性的词是“阿莫西林”,其次是“应用”,对于人类来说最后的“的”是可有可无的。那么在计算机中,应该怎么表现这个在人类看来显而易见的排序呢?第一种思路直接使用文本中的词频来表示文本,即[TF1,TF2……,TFn](所有语料的unique word数量为n, ∑TFi = 1),那么这样来计算两文本的相似度就可以使用两个词频向量进行计算。原创 2020-12-21 17:14:21 · 101 阅读 · 0 评论