自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

python自然语言处理_chapter1

NLTK基本使用pdf:http://www.nltk.org/book/ch01.html下载本书需要使用的数据集(约100M)book模块存放着文本数据集查看上下文查找相近词(不同作者用词偏好不同)被多个词共享的上下文查看单词在文章中的分布情况(横轴是距文章起始处偏移量)获取文本总长度(包括标点符号)*text相当于字符列表吧,所以可以对其使用len和set获取字典集及其大小获取某个单词出现次...

2018-02-28 00:33:17 109

原创 COMS W4705: Natural Language Processing _chapter1

pdf网址:http://www.cs.columbia.edu/~mcollins/lm-spring2013.pdf符号说明:V是字典集(有穷);V+是字典集中单词组成的句子集(无穷,因为一个句子的长度不定)句子是单词序列(如下),xn规定为特殊符号STOP(不算在字典集中)我们应该如何定义概率函数p呢?如果仅用简单定义(个数/总数)将导致未出现句子的p为0。一阶马尔科夫过程中的假设:联合...

2018-02-27 23:00:28 267

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除