Deep learning
文章平均质量分 89
每一个有风的日子
这个作者很懒,什么都没留下…
展开
-
word2vec and glove
传统方法假设我们有一个足够大的语料库(其中包含各种各样的句子,比如维基百科词库就是很好的语料来源)那么最笨(但很管用)的办法莫过于将语料库里的所有句子扫描一遍,挨个数出每个单词周围出现其它单词的次数,做成下面这样的表格就可以了。假设矩阵是5W*5W维,矩阵运算量巨大。假设矩阵的每个数字都用标准32位Int表示,需要10,000,000,000个byte,也就是10GB的内存(且随着词汇量...原创 2018-05-26 16:46:10 · 1250 阅读 · 0 评论 -
语义角色标注 Semantic Role Labeling(SRL) 初探(整理英文tutorial)
语义角色标注最近调研了一下语义角色标注,记录如下将语言信息结构化,方便计算机理解句子中蕴含的语义信息。 语义角色标注 (Semantic Role Labeling, SRL) 是一种浅层的语义分析技术,标注句子中某些短语为给定谓词的论元 (语义角色) ,如施事、受事、时间和地点等。其能够对问答系统、信息抽取和机器翻译等应用产生推动作用。语义标注的不足之处仅仅对于特定谓词...原创 2018-05-26 16:51:05 · 17644 阅读 · 2 评论 -
wikipedia 训练繁体中文 embedding(word2vec)模型
由于课题任务需要一个繁体中文的word3vec, 折腾经过记录在此。希望以后少掉几个坑。 训练好的embedding放在网盘中, 密码:2um0 原文发布于个人博客(好望角),那里有更好的阅读体验。get wiki最新的wiki datas下载地址,目前有1.6G大小。里面的内容以XML格式保存。节点信息如下:<page> &原创 2018-07-23 17:35:43 · 1672 阅读 · 0 评论 -
BERT:From Transformer Architecture to Transfer Learning
原创 2018-11-05 16:02:51 · 1850 阅读 · 2 评论