NLP
文章平均质量分 91
superbfiy
这个作者很懒,什么都没留下…
展开
-
Smoothing
文章目录返回主目录Add-one SmoothingAdd-K SmoothingInterpolationGood-Turning Smoothing返回主目录这是一个系列的文章,点击返回综合目录页Add-one SmoothingPAdd−1(Wi∣Wi−1)=C(Wi−1,Wi)+1C(Wi)+VP_{Add-1}(W_i|W_{i-1}) = \frac{C(W_{i-1},W_{i})+1}{C(W_i)+V} PAdd−1(Wi∣Wi−1)=C(Wi)+VC(Wi−1.原创 2021-12-24 09:50:10 · 491 阅读 · 0 评论 -
NLP深入学习——Unigram Bigram N-gram
文章目录返回主目录UnigramBigramN-gram返回主目录这是一个系列的文章,点击返回综合目录页Unigram假设W_1,W_2,W_3,W_4,…,W_n是句子分词的结果,则:P(W1,W2,W3,W4,...,Wn)=P(W1)⋅P(W2)⋅P(W3)⋅P(W4)⋅...⋅P(Wn)P(W_1,W_2,W_3,W_4,...,W_n) = P(W_1)·P(W_2)·P(W_3)·P(W_4)·...·P(W_n)P(W1,W2,W3,W4,...,Wn)=P(W1.原创 2020-06-21 23:35:29 · 3613 阅读 · 1 评论 -
NLP深入学习——Chain Rule and Markov Assumption
文章目录返回主目录Chain RuleMarkov Assumption1st order Markov Assumption2nd order Markov Assumption3rd order Markov Assumption返回主目录这是一个系列的文章,点击返回综合目录页Chain RuleP(A,B)=P(A∣B)⋅P(B)=P(B∣A)⋅P(A)P(A,B)={P(A|B)·P(B)}={P(B|A)·P(A)}P(A,B)=P(A∣B)⋅P(B)=P(B∣A)⋅P(A)同理.原创 2020-06-21 23:11:39 · 672 阅读 · 0 评论 -
NLP深入学习——什么是词向量和句向量(Word Embedding and Sentence Embedding)
文章目录返回主目录词向量(Word Embedding)句向量(Sentence Embedding)返回主目录这是一个系列的文章,点击返回综合目录页词向量(Word Embedding)词向量(Word embedding),又叫Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。【说明:上面是二维空间上的呈现形式】句向量(Sentence Embedding)①Averging法则②LSTM/RNN这个.原创 2020-06-21 20:10:03 · 2329 阅读 · 0 评论 -
NLP深入学习——文本表示与相似度计算(text representation and Similarity calculation)
文章目录返回主目录文本表示(text representation):文本表示方法(text representation method)单词表示(word representation):One-hot representation句子表示(sentence representation):① Boolean-based representation② Count-based representation③ Tf-idf representation文本相似度(text similarity)① 欧氏距.原创 2020-06-18 10:39:10 · 1370 阅读 · 0 评论 -
NLP深入学习——过滤停用词(Filtering stop words)
文章目录返回主目录过滤停用词(Filtering stop words)Stemming操作返回主目录这是一个系列的文章,点击返回综合目录页过滤停用词(Filtering stop words)对于NLP的应用,在处理阶段会把一些无关紧要的词去掉,也就是所谓的停用词在英文里,比如“the”,“a”,“an”等单词或“$”,“%”,“&”等标点符号,都可以作为停用词来处理在中文里,比如“啊”,“一则”,“不尽然”等词汇或“『”,“▲”,“⑥”等标点符号,都可以作为停用词来处理.原创 2020-06-17 11:07:12 · 3410 阅读 · 1 评论 -
NLP深入学习——拼写纠错(spell correction )
文章目录返回主目录编辑距离(Edit Distance)方法改进返回主目录这是一个系列的文章,点击返回综合目录页编辑距离(Edit Distance)概念:编辑距离是针对二个字符串(例如英文字)的差异程度的量化量测,量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串应用:自然语言处理、生物信息学等简单举例说明:Python代码实现:# 基于动态规划的解法def edit_dist(str1, str2): # m,n分别字符串str1和str2.原创 2020-06-17 10:36:23 · 2162 阅读 · 0 评论 -
NLP深入学习——分词(Segmentation )
返回主目录分词工具(Word Segmentation Tools)Jieba分词:https://github.com/fxsjy/jiebaSnowNLP:https://github.com/isnowfy/snownlpLTP:http://www.ltp-cloud.com/HanNLP:https://github.com/hankcs/HanLP/THULAC:https://github.com/thunlp/THULAC-PythonNLPIR:https://gith原创 2020-06-12 20:44:14 · 763 阅读 · 0 评论 -
NLP深入学习——算法复杂度计算(归并排序与斐波那契数)
返回主目录归并排序(merge sort)复杂度计算举一个栗子说明算法思路:简化上述流程,并给出复杂度,假设需要计算的复杂度为T(n):用 主定理(Master Theorem) 解答:代入计算:斐波那契数 (Fibonanci number)复杂度计算序列为1, 1, 2, 3,5,8, 13, 21,…问:怎么求出序列中的第N个数?f(n)= f(n-2)+ f(n-1)def fib(n) : if n<3: return 1 return fib(原创 2020-06-11 22:04:21 · 260 阅读 · 0 评论 -
NLP深入学习——NLP介绍
返回主目录NLP的概念:NLP(自然语言处理(AI分支))NLP (Natural Language Processing) 是人工智能(AI)的一个子领域自然语言是人类智慧的结晶,自然语言处理是人工智能中最为困难的问题之一摘自《百度百科》说白了就是 如何让计算机理解人类的语言NLP的流程:NLP = NLU + NLGNLU(Nature Language Understanding):自然语言理解。理解给定文本的含义。语音(文本)—>意思NLG(Natural La原创 2020-06-09 20:06:20 · 355 阅读 · 0 评论 -
NLP深入学习——总目录
持续更新。。。基础篇:NLP介绍原创 2020-06-09 20:04:01 · 585 阅读 · 0 评论