读书笔记
bright_silmarillion
Just like debugging, slow down but ten more.
展开
-
《NLTK基础教程》读书笔记 003期
和上一期出现相同的需要download的方法就不再赘述了,这里放上一个xml,直接用浏览器ctrl+F搜索好了 https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml然后就是接下来POSTagger的import失败问题,貌似也是因为改名了,现在叫做StanfordPOSTagger 所以把第一行程序改成...原创 2018-07-09 23:55:08 · 336 阅读 · 0 评论 -
《Natural Language Processing with Python》读书笔记 003期
这个2554.txt已经改名了貌似,改成2554-0.txt了。把代码也相应改了。长度变成了:1176965 多了一些编码:>>> len(tokens)257726>>> tokens[:10]['\ufeffThe', 'Project', 'Gutenberg', 'EBook', 'of', 'Crime', 'and', 'Puni...原创 2018-07-22 01:12:21 · 416 阅读 · 0 评论 -
《Natural Language Processing with Python》读书笔记 002期
第二章一开始核心就是再讲nltk里面内置的各种语料库,但是个人觉得这个并不是这张的重点,重点在于后面如何自己构造自己的语料库,毕竟如果一般训练的话,都肯定是拿自己手头的data来搞。这个地方其实也没有什么要多加注意的,就是要仔细注意编码问题,都变成utf-8的格式最好统一,这样与PlaintextCorpusReader的默认编码就相同了。def __init__(self, root...原创 2018-07-21 23:11:27 · 334 阅读 · 0 评论 -
《Natural Language Processing with Python》读书笔记 001期
这本书对应python2的中文版书籍网上有很多,但是随后更新的python3的版本却微乎其微,只能从官网上的电子英文版开看了,反正也全当练习了。官网明确更新的几条观月NLTK 3.0的信息,间接说明这些可能很重要或者很常用,就像print对于python一样。NLTK also includes some pervasive changes:many types are initia...原创 2018-07-21 15:21:24 · 1280 阅读 · 0 评论 -
《NLTK基础教程》读书笔记 002期
今天上来的第一个坑出现在使用nltk的tokensize,终端报出了如下错误LookupError:********************************************************************** Resource ?[93mpunkt?[0m not found. Please use the NLTK Downloader to o...原创 2018-07-08 00:25:27 · 532 阅读 · 0 评论 -
《NLTK基础教程》读书笔记 001期
(开一个新的系列) 第一章算是introduction和各种环境的熟悉,应该不算太麻烦,这里需要注意几个问题,这本书的核心还是在用python,而不是python3,所以有些坑还是得自己踩一踩。两个版本最最基本的问题像是print后面括号的有无,不在这里过多强调。第一个坑,urllib2 在书正文的第12页,python2中import了这个库,但是在python3中,该库已经整合进入...原创 2018-07-07 01:52:35 · 410 阅读 · 0 评论 -
《NLTK基础教程》读书笔记 008期
这章主要是机器学习的知识? 嘛,说是机器学习,结果还是numpy、pandas、scipy、matplotlib这些玩意儿的使用,没有任何tensorflow、caffe、keras等高级库的使用说明。np.logspace(0,1)的结果不是只有两行,看也知道省略了很多,真实结果如下array([ 1. , 1.04811313, 1.09854114, 1.1...原创 2018-07-12 17:17:33 · 319 阅读 · 0 评论 -
《NLTK基础教程》读书笔记 007期
今天这章是爬虫 上来直接运行代码就会出现一个过期报错ScrapyDeprecationWarning: Module `scrapy.spider` is deprecated, use `scrapy.spiders` instead from scrapy.spider import BaseSpiderd:/Computer Science/Python_High_Level/...原创 2018-07-12 01:07:27 · 305 阅读 · 0 评论 -
《NLTK基础教程》读书笔记 006期
因为utf-8的问题,所以经常会出现下列报错UnicodeDecodeError: 'gbk' codec can't decode byte 0x93 in position 6325: illegal multibyte sequence在这上面有一句decode会被提示str没有该方法,为了处理上述问题,我们在open的时候就使用encodingargument来解决,代码如下...原创 2018-07-11 00:59:20 · 1907 阅读 · 0 评论 -
《NLTK基础教程》读书笔记 005期
纽约时报的内容网上找了半天没有一模一样的,不过有一个意思至少还过得去,在这里附上链接: https://www.huffingtonpost.com/2015/05/18/obama-military-equipment-police_n_7304504.html 这个网页上有一个违法字符ñ,直接改成n就好了,要不然在读入的时候可能会报错,另外最好把该网站的单双引号都用英文再敲一遍。然后就...原创 2018-07-10 18:52:58 · 194 阅读 · 0 评论 -
《NLTK基础教程》读书笔记 004期
第一个BUG很明显 我已经from nltk import CFG了,那么我后面就不用在CFG前面加nltk.了ChunkRule在使用之前,应该from nltk.chunk.regexp import ChunkRule一下仍然给出一个下载源,对于stanford parser https://nlp.stanford.edu/software/stanford-parse...原创 2018-07-10 01:43:43 · 210 阅读 · 0 评论 -
《Natural Language Processing with Python》读书笔记 004期
编程是切勿急躁,但是也不能慢悠悠啊【手动捂脸】这章主要都是python的非常基础的知识,有很多BUG也都是非常非常有特点的需要注意的基本上对于个人来讲没有特别多的新知识了assert的用法可以再熟悉一下,这个其实有的时候挺有用的,尤其是在学网课进行自我监督时。函数的docstring突然想起来,自己貌似很少写╮(╯▽╰)╭,这点之后也得注意引用一段话:编程是一种技能,需要获...原创 2018-07-22 21:09:15 · 653 阅读 · 0 评论