Scarpy
文章平均质量分 84
Luke Liu
Graduation School Student Of Tokyo Institute of Technology. ACM Member
展开
-
Scrapy 爬虫框架01—— piplines
scrapy里面的piplines主要用来处理接受spider传来的数据,也就是item。在使用piplines的时候我们应该把settings.py中的ITEMS_PIPELINES注释掉。ITEM_PIPELINES = { # 前面代表pipline的管道数目,后面代表优先级。(先执行谁) 'myspiderpro1.pipelines.Myspiderpro1Pip...原创 2019-04-28 17:19:00 · 727 阅读 · 0 评论 -
Scrapy 爬虫框架01—— logging(日志)
1.为什么要使用Logging? 在进行测试的时候,许多初学Pythoner喜欢使用Print函数,这样本身没什么不好,但是在使用scrapy的时候,由于Scrapy 是多线程,所以你有时候没有办法确定在terminal上显示的data到底是哪里的data.这时,我们可以使用logging 模块。首先看在scrapy中使用logging模块。首先是看scrapy 文件:...原创 2019-04-28 17:39:41 · 793 阅读 · 0 评论 -
Scrapy 框架之 ——crawl Spiders
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u012017783/article/details/76169807 </div> <link rel="stylesheet" href="http...转载 2019-05-03 21:30:34 · 627 阅读 · 0 评论 -
Scrapy 爬虫框架 ——User Agent
如何设置Scrapy框架的User Agent 呢?在settings.py中设置即可:BOT_NAME = 'tecent'SPIDER_MODULES = ['tecent.spiders']NEWSPIDER_MODULE = 'tecent.spiders'LOG_LEVEL="WARNING"# Crawl responsibly by identifying yo...原创 2019-04-28 18:44:55 · 492 阅读 · 0 评论 -
Scrapy爬虫框架之———— 多页爬取图片的信息
ok, 接下来我们要将怎样多页爬取图片的信息,以及如何下载图片。知识点涉及到: 自动的翻页爬取 多个parse 之间的request 传递 构建图片爬取的通道 さあ!始めようぜ!首先我们要爬取的网站是这个: 知名的动漫壁纸网 Konachan.net确定了目标之后,我们的第一个任务是创建一个爬虫项目以及一个爬虫scrapy startpro...原创 2019-04-29 21:07:31 · 2395 阅读 · 0 评论 -
Scrapy框架—— 带cookies登录
Cookie,有时也用其复数形式 Cookies,指某些网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据(通常经过加密)。定义于 RFC2109 和 2965 中的都已废弃,最新取代的规范是 RFC6265 [1] 。(可以叫做浏览器缓存) 因此,在登录类似于知乎、豆瓣等网站的时候,想要获得登录后的页面,可以携带cookies进行登录。首先,我们打开...原创 2019-05-06 10:28:24 · 2493 阅读 · 1 评论 -
Scrapy框架——发送POST请求模拟登陆
除了携带Cookies进行网络登陆外https://mp.csdn.net/postedit/89874926,利用Scrapy 发送Post请求也可以进行模拟登陆。下面以Github为例,进行POST登陆。登录界面如下:(https://www.github.com/login)我们可以想尝试发一次错误的密码,相当于发送了一次POST请求,看看结果。但是我们可以注意到发送...原创 2019-05-07 00:11:26 · 1003 阅读 · 0 评论