NLP
乐清sss
立志成为大师的萌妹子!
展开
-
linux nltk.download()报错
可在https://github.com/nltk/nltk_data/ 下载,安装到对应的目录比如wordnet的目录是在/users/***/anaconda3/envs/semeval2020/share/nltk_data/corpora/wordnet因为我只需要wordnet,所以只下载了这个。原创 2020-12-22 16:41:37 · 443 阅读 · 0 评论 -
CS224n课堂笔记2-词的向量表示:word2vec
预感lecture2会学很久,不会的东西太多了,emmm……….. 课程大纲 1. 词义 2. Word2vec介绍 3. 突出的研究 4. Word2vec目标函数梯度 5. 优化复习计算机如何处理词语的意思 过去几个世纪里一直用的是分类词典。计算语言学中常见的方式是WordNet那样的词库。比如NLTK中可以通过WordNet查询熊猫的hype...原创 2018-07-26 01:17:03 · 1249 阅读 · 1 评论 -
CS224n课堂笔记1-自然语言处理与深度学习简介
大二升大三,选了自然语言处理方向,实验室带我的博士学长推荐先学习CS224n这门课,很喜欢国外的课程,虽然我听力不怎么的….. 课程相关 精通Python: 所有课程作业均采用Python语言。 多元微积分,线性代数(例如,MATH 51,CME 100) 基本概率和统计(例如CS 109或其他统计课程) 机器学习的基础知识(例如,来自CS229或CS2...原创 2018-07-22 15:30:15 · 400 阅读 · 0 评论 -
汉字编码方案演变
在Unicode之前,一共存在过3套中文编码标准:GB2312-80, Big5,HKSCS.GB2312-80GB2312-80,是中国大陆使用的国家标准,其中一共编码了6763个常用简体汉字。 GB2312即《信息交换用汉字编码字符集———基本集》,由国家标准总局发布,1981 年 5月 1日实施. 它 对促进汉字信息技术的发展和计算机的应用,发挥了重要作用,有人称它...原创 2018-09-09 17:35:26 · 1290 阅读 · 0 评论 -
汉字输入法演变
摘自百度知道:https://zhidao.baidu.com/question/371212542972360284.html由于汉字有数以万计,电脑键盘不可能为每一个汉字而造一个按键。因此,人们需要替汉字编码(检索出汉字的代码),用数个键来输入一个汉字。中文输入法的发展过 程,是“万码奔腾”的过程,在30年间出现了上千种编码方法。最早的汉字输入法,一般认为是从70年代末期或者8...原创 2018-09-09 19:46:32 · 3152 阅读 · 1 评论