NLP
文章平均质量分 90
每一个有风的日子
这个作者很懒,什么都没留下…
展开
-
word2vec and glove
传统方法假设我们有一个足够大的语料库(其中包含各种各样的句子,比如维基百科词库就是很好的语料来源)那么最笨(但很管用)的办法莫过于将语料库里的所有句子扫描一遍,挨个数出每个单词周围出现其它单词的次数,做成下面这样的表格就可以了。假设矩阵是5W*5W维,矩阵运算量巨大。假设矩阵的每个数字都用标准32位Int表示,需要10,000,000,000个byte,也就是10GB的内存(且随着词汇量...原创 2018-05-26 16:46:10 · 1262 阅读 · 0 评论 -
语义角色标注 Semantic Role Labeling(SRL) 初探(整理英文tutorial)
语义角色标注最近调研了一下语义角色标注,记录如下将语言信息结构化,方便计算机理解句子中蕴含的语义信息。 语义角色标注 (Semantic Role Labeling, SRL) 是一种浅层的语义分析技术,标注句子中某些短语为给定谓词的论元 (语义角色) ,如施事、受事、时间和地点等。其能够对问答系统、信息抽取和机器翻译等应用产生推动作用。语义标注的不足之处仅仅对于特定谓词...原创 2018-05-26 16:51:05 · 17706 阅读 · 2 评论 -
计算语言学概论复习笔记(分词、语言模型、隐马尔科夫、POS、ML、DL、MT)
01(计算语言学概论)计算语言学的应用机器翻译人机对话信息检索信息提取自动文摘文本分类拼写检查音字转换什么是计算语言学?计算语言学是通过建立形式化的计算模型来分 析、理解和处理自然语言的学科。计算语言学的研究目标研制能理解并生成人类语言的计算机系统(终极)研制出具有一定人类语言能力的计算机文本 或语音处理系统。(当前)计算语言学的研究内容建立形式化的...原创 2018-05-26 22:45:46 · 3002 阅读 · 1 评论 -
详解LDA主题模型
讲解LDA非常棒的一篇文章,链接如下: https://blog.csdn.net/v_july_v/article/details/41209515转载 2018-05-27 09:17:31 · 309 阅读 · 0 评论 -
【NLP比赛】中文信息学会 2018 文本溯源技术评测(SMP ETST) Ranking First
比赛地址 思路一:无监督学习( bule 指标 ) 0.8737 思路二:无监督学习(ciDer 指标)原创 2018-07-17 19:48:14 · 1933 阅读 · 6 评论 -
wikipedia 训练繁体中文 embedding(word2vec)模型
由于课题任务需要一个繁体中文的word3vec, 折腾经过记录在此。希望以后少掉几个坑。 训练好的embedding放在网盘中, 密码:2um0 原文发布于个人博客(好望角),那里有更好的阅读体验。get wiki最新的wiki datas下载地址,目前有1.6G大小。里面的内容以XML格式保存。节点信息如下:<page> &原创 2018-07-23 17:35:43 · 1694 阅读 · 0 评论 -
BERT:From Transformer Architecture to Transfer Learning
原创 2018-11-05 16:02:51 · 1871 阅读 · 2 评论