nlp学习
文章平均质量分 86
芃之禾
NLP学习中
展开
-
贝叶斯公式(Bayesian)的学习
贝叶斯公式(个人理解版)P(X∣Y)=事件X在事件Y中发生的概率=事件X和Y同时发生的概率事件X发生的概率=P(XY)P(X)=P(X∣Y)×P(Y)P(X)P(X|Y)=事件X在事件Y中发生的概率=\frac{事件X和Y同时发生的概率}{事件X发生的概率}=\frac{P(XY)}{P(X)}=\frac{P(X|Y)\times P(Y)}{P(X)}P(X∣Y)=事件X在事件Y中发生的概率=事件X发生的概率事件X和Y同时发生的概率=P(X)P(XY)=P(X)P(X∣Y)×P(Y)理解思路原创 2021-02-21 22:12:57 · 2358 阅读 · 5 评论 -
垃圾邮件识别任务中朴素贝叶斯分类算法的使用思路
垃圾邮件识别任务中朴素贝叶斯分类算法的使用思路判断一个邮件是否是垃圾邮件:step1. 训练模型过程:1.计算先验概率:如现有200封正常邮件,100封垃圾邮件可得到:P(正常邮件)=200200+100=23P(正常邮件)=\frac{200}{200+100}=\frac{2}{3}P(正常邮件)=200+100200=32P(垃圾邮件)=100200+100=13P(垃圾邮件)=\frac{100}{200+100}=\frac{1}{3}P(垃圾邮件)=200+100100=31原创 2021-02-21 22:12:11 · 755 阅读 · 0 评论 -
机器学习Machine Learning学习及常用的算法
机器学习定义自动从已有数据里找出一些规律,然后把学到的规律应用到对未来数据(future data)的预测中,或者在不确定环境下自动地做一些决策机器学习算法的分类有两个维度做划分:监督学习和非监督学习生成模型和判别模型常用算法举例:有监督学习(Supervised Learning)无监督学习(Unsupervised Learning)生成模型(Generative Model)朴素贝叶斯(Naive Bayesian)隐马尔科夫(HMM)线性判别分析(LDA)原创 2021-02-21 18:22:57 · 245 阅读 · 0 评论 -
Language Model语言模型学习
应用场景判断一句话是否通顺(是不是人话)自动生成句子,诗句,作文,等单词纠错等等种类Unigram-ModelBigram-ModelN-gram-Model计算方式Unigram-Model:p(w1,w2,w3……,wn)=p(w1)p(w2)p(w3)……p(wn)p(w_1,w_2,w_3……,w_n)=p(w_1)p(w_2)p(w_3)……p(w_n)p(w1,w2,w3……,wn)=p(w1)p(w2)p(w3)……p(wn)Bigram-Mod原创 2021-02-21 15:41:47 · 233 阅读 · 0 评论 -
Good-Turning Smothing 学习
使用场景语言模型平滑化等公式没有出现过的单词出现的概率Pmle=0P_{mle}=0Pmle=0 (mle的方式)Pgt=N1NP_{gt}=\frac{N_1}{N}Pgt=NN1 (good-turning的方式)出现过的单词出现的概率Pmle=cNP_{mle}=\frac{c}{N}Pmle=Nc(mle的方式)Pgt=(c+1)Nc+1Nc×NP_{gt}=\frac{(c+1)N_{c+1}}{N_c\times N}Pgt=Nc×N(c+1)Nc+1原创 2021-02-21 14:11:01 · 316 阅读 · 0 评论 -
td-idf理解
定义TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。公式(个人理解版)以二维向量距离,更多维向量以此推类分子为向量的点乘,分母为距离tf=文档d中词w出现的次数tf=文档d中词w出现的次数tf=文档d中词w出现的次数idf=logNN(w)(N为文档总量,N(w)为这个词出现在多原创 2021-02-18 11:51:31 · 2057 阅读 · 2 评论 -
文本相似度的几种计算方式
s1=(x1,x2,x3)s_1=(x_1,x_2,x_3)s1=(x1,x2,x3)s2=(y1,y2,y3)s_2=(y_1,y_2,y_3)s2=(y1,y2,y3)欧氏距离d=∣s1−s2∣=(x12−y12)+(x22−y22)+(x32−y32) d=|s_1-s_2|=\sqrt{(x_1^2-y_1^2)+(x_2^2-y_2^2)+(x_3^2-y_3^2)}d=∣s1−s2∣=(x12−y12)+(x22−y22)+(x32−y32)缺点余原创 2021-02-18 11:32:10 · 2170 阅读 · 0 评论