![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
moisiet
哪管真理无穷,知识海洋,进一寸有一寸的惊喜~
展开
-
scrapy-from_crawler实例化Spider
spider的初始化是在Crawler类内完成的。而且是调用Spider内的类方法from_crawler()初始化spider的,下面分析这个过程的流程。Spider源码如下:class Spider(object_ref): """Base class for scrapy spiders. All spiders must inherit from this class....原创 2019-01-10 23:13:10 · 2215 阅读 · 0 评论 -
requests-爬取美女图片源码
爬取思路:1.分析ajax请求,找到存放图片地址的json2.解析json数据,提取中图片url3.再次请求图片url,通过open()和write()方法将图片保存至内地。废话少说,直接上代码:前提条件是在当前.py文件同级目录下新建一个beauty360的文件夹用来保存图片import requestsimport timeimport rebase_url="https:...原创 2019-01-11 10:05:18 · 788 阅读 · 0 评论 -
chrome--浏览器调试工具详解
chrome浏览器开发调试工具打开方式:F12键一,常用面板介绍1.定位小箭头按钮(左边第一个):选中Elements面板,并启动该按钮,可以在页面中定位相应元素的源代码位置,或者选择源代码位置可定位到页面相应的元素。2.手机-PC视图切换按钮(左边第二个):启动该按钮,网页可以在pc网址网页和手机网址网页之间进行转换。由于在爬虫过程中,爬取手机网址网页相对来说更容易,所以可以通过该按...原创 2019-01-12 23:19:45 · 12997 阅读 · 0 评论 -
chrome-调试按钮详解
在爬虫开发过程中,form表单中一些参数是通过加密后实现的,因此需要快速找到加密过程,这就需要对js进行调试了。一.如何快速定位查找数据1.进入console面板,快捷键:ctrl+shift+F键进入search搜索框,输入搜素内容,就会在所有下载的资源内搜素目标字符串。2.双击搜索项目item,转到Source面板,就可以看到目标数据的目标文件了。对于js文件为了节约流量,采用无空格方式...原创 2019-01-13 12:16:17 · 5508 阅读 · 0 评论 -
requests--request请求乱码问题
想着本来是要爬取网站https://www.kanunu8.com上所有小说的,但是返回的网页中中文都是乱码。此时处理思路为:1.查看原网页是什么编码方法一:右键“查看网页源代码”,一般在源代码头内会有属性charset="gb2312"这样的属性,这个属性规定了网页编码方式;方法二:查看请求头/响应头,里面可能指定了规定的编码方式。2.用网页指定的编码方式解码response=requ...原创 2019-01-13 23:42:22 · 4098 阅读 · 0 评论 -
scrapy--Rule()与LinkExtractor()函数理解
这两个函数用于CrawlSpider内的rules属性中,具体的参数用法网上有很多,这里不再赘述。我想说的是差点搞死我的几个注意点。1.来源:from scrapy.contrib.spiders import Rulefrom scrapy.linkextractors import LinkExtractor2.注意点:1.rules内规定了对响应中url的爬取规则,爬取得到的url...原创 2019-01-17 01:16:00 · 5559 阅读 · 1 评论 -
scrapy--设置user-agent和代理池
建立user-agent池:在request的headers中设置User-Agentclass RandomUserAgent(object): def __init__(self,user_agent): self.user_agent = user_agent @classmethod def from_crawler(cls,crawler):...转载 2019-02-27 22:18:29 · 6855 阅读 · 0 评论