![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
nlp
猿球崛起
这个作者很懒,什么都没留下…
展开
-
[论文翻译]A Fast and Accurate Dependency Parser using Neural Networks
论文地址:https://cs.stanford.edu/~danqi/papers/emnlp2014.pdf论文名称:一种使用神经网络(三层)的精准快速的依存句法分析特征提取是基于Transition-based Dependency Parsing 基于转移的依存句法分析,从而可以有效精简特征数量例如:词特征18个:1、栈区和缓存区分别提取前三个词 合计6个特征...原创 2018-07-25 18:02:22 · 1303 阅读 · 2 评论 -
[stanford NLP] 原理小结
1、中文分词包:Stanford Word Segmenter ,基于crf模型实现论文:Huihsin Tseng, Pichuan Chang, Galen Andrew, Daniel Jurafsky and Christopher Manning. 2005. A Conditional Random Field Word Segmenter. In Fourth SIGHAN Wo...原创 2018-07-26 10:35:30 · 1154 阅读 · 0 评论 -
一张表说明判别模型和生成模型的区别与联系
类别 判别模型 生成模型 特点 在有限样本下建立判别函数,寻找不同数据间的最优分类面,目标是实现分类 首先建立样本的联合概率分布,再利用模型推理预测。要求已知样本无穷或尽可能的大 区别 估计条件概率分布p(y|x)p(y|x)p(y|x) 估计联合概率分布p(x,y)p(x,y)p(x,y) 联系 生成模型可推导出判别模型 判别模...转载 2018-07-29 22:48:37 · 682 阅读 · 0 评论 -
[NLP]发现新词
思路:1、对新文本进行对其断句、分词、去除停用词,2、计算文档的二阶共现、三阶共现、四阶共现频率 3、发现两个字符串合并的新词:针对统计的二阶共现频率,计算词语的互信息:左右熵:基于对应三阶共现结果将结果进行加权求和,最后排序,根据经验阈值确定新词,然后使用词典过滤后加入词典4、发现三个字符串合并的新词,与3 同理,统计三阶共现概率互信息计算需要 对n-gr...原创 2018-07-26 17:40:58 · 1340 阅读 · 0 评论