2018年07月_Jonny的ICU

11月 10月 09月 08月 07月 06月 05月 04月 03月 01月

原创 Python爬虫实习之scrapy运行后未爬取直接结束

一开始看到这种情况也soil一连懵逼，什么鬼，难道是我的IP不行被网站看上了，想想不可能啊，毕竟是第一次爬取，于是开始了我一点一点的纠错过程，一开始以为是我的工程项目的文件设置路径错了，后来发现并不是，于是又想是不是程序的启动运行脚本程序错了，改了半天发现也不是，于是我无奈了。。。。可是，有时候灵感就是那么一瞬间，是不是网址写错了。事实证明却是是这样，这里说写错了，并不是那种直接把网址真的写错...

2018-07-20 17:44:22 3877 3

原创 GitHub代码上传及出错修正

第一步：创建Github新账户第二步：新建仓库第三部：填写名称，简介（可选），勾选Initialize this repository with a README选项，这是自动创建REAMDE.md文件，省的你再创建。第四步：安装Github shell程序，地址：http://windows.github.com/第五步：打开Git Shell，输入以下命令生成密钥来验证身份ssh-keygen...

2018-07-03 10:37:41 447

原创 Python爬虫之crawlspider源码解析

做了好久的爬虫，还没有真正的阅读过crawlspider的源码，下面是一些源码的解析：Spider基本上能做很多事情了，但是如果你想爬取全站的话，可能需要一个更强大的武器。CrawlSpider基于Spider，但是可以说是为全站爬取而生。CrawlSpiders是Spider的派生类，Spider类的设计原则是只爬取start_url列表中的网页，而CrawlSpider类定义了一些规则(rul...

2018-07-02 17:46:14 629