![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
MichaelYnag
自然语言处理,机器学习,深度学习,大数据
展开
-
EM 算法随记(1)
最大熵模型面临两个问题,一是如何确定模型是均匀的,二是根据一个约束集如何找到一个最优的均匀分布。由上面熵取得最大值时分布可知,当熵模型在满足约束条件下取得最大值时,熵模型是均匀的。原创 2017-09-04 11:30:09 · 322 阅读 · 0 评论 -
算法学习笔记梳理 一
一、生成模型与判别模型监督学习的目的就是学习一个模型:监督学习1 联合概率分布 假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y) P(X,Y)为分布函数或分布密度函数 对于学习系统来说,联合概率分布是未知的, 训练数据和测试数据被看作是依联合概率分布P(X,Y)独立同分布产生的。(X,Y)相互独立并且分布相同2. 假设空间...原创 2019-02-28 13:55:28 · 275 阅读 · 0 评论 -
花书阅读随记1
花书第一部分是一些基本概念,但是我觉得这些概念都是比较重要的一些概念。 下面对一些概念进行笔记: 第一部分 线性代数 特征值与特征向量 特征向量的代数含义是:将矩阵乘法转换为数乘操作; 特征向量的几何含义是:特征向量通过方阵A变换只进行伸缩,而保持特征向量的方向不变。特征值表示的是这个特征到底有多重要,类似原创 2017-09-21 17:19:58 · 330 阅读 · 0 评论 -
词的向量表示
Vector Representations of Words自然语言处理不同于图像或音频处理。在图像处理中,像素点的强度值(如果是256色的强度值为0-255)是可以表示成High Dimension的 Data Vector Set。同样音频的功率密度 的强度值也是可以表示成 Data Vector Set。在自然语言处理中,每个词的传统表示都是离散的,简单的说,就是词和词之间不存在任何的关联原创 2017-09-19 13:44:50 · 1418 阅读 · 0 评论 -
条件随机场随记1
条件随机场看成是一个无向图模型或马尔可夫随机场 这时我们称(X,Y)为条件随机场这个概念中有几点需要引起注意的地方。 (1)CRF 是一个无向图模型,这是有区别HMM的一个模型 (2) Y 服从马尔科夫属性。讲条件随机场会引入一个势函数的概念。比如李航《统计学习方法》。 为什么CRF会引入势函数? 因为尽管在给定每个节点的条件下,分配给该节点一个条件概率是可能的原创 2017-09-05 17:02:51 · 477 阅读 · 0 评论 -
自然语言学习心得 1
作为一个 自然语言处理算法工程师,我的知识机构和技能每天都在接受新的挑战。总有一些新手会问我一个问题:自然语言处理到底怎么学?其实自然语言处理归结起来处理的无非是序列标注问题和文本分类两大类问题。 分词,词性标注,NER,Parsing 属于序列标注问题; 文本分类,情绪检测属于分类问题。所以只要学好这两类问题,基本上就可以应付自然语言处理中80%的问题。至于一些高级的专题,想必也是由各种简单的c原创 2017-09-04 22:19:55 · 916 阅读 · 0 评论 -
中文分词技术
中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。 现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。基于字符串匹配的分词方法这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个「充分大的」机器词典中的词条进行配,若在词典中找到某个...原创 2019-10-10 17:53:20 · 598 阅读 · 1 评论