这是一篇没有什么重点的自我救赎文…
最近开始对框架进行下手了…
第一个框架就是比较熟悉的scrapy
框架,首先导入源码…
密密麻麻麻麻,好多文件,该怎么解析?该按着什么顺序去看所有的代码比较容易贯通呢?
scrapy
的大佬们,你们是怎么规划的呀,萌新求教啊T_T
内事不决问百度!搞他!
看了半天,感觉一看起框架就比较深奥了,大佬们的功力还是深厚…
我还是做一个适合我自己的攻略吧
先搞个项目:*家租房信息.搞他
首先访问主页,获取全国城市列表,拼接完整的url,访问各地租房的列表页.接着进行二次请求的发起,获取详情页的信息.
手软一点吧,就拿第一个城市的第一页列表页的详情页吧.
代码就不放了,能看这个的应该有点代码基础了吧…(自我YY)
写一下具体流程吧:
重写start_request()方法.
接下来我们来分析一下这个start_request()方法的作用(百度)
有一个感觉有点我想要的东西的链接:https://blog.csdn.net/qq_40605167/article/details/81387501
这里从start_urls开始请求,调用默认调用requests()方法.
[总结]:首先,start_urls
是存放开始请求的url,框架默认会调用start_requests()
方法,默认发送get请求
所以第一个问题,我在源码中看出它是从start_urls
中获取url,并且使用start_requests()
方法的?
- 去engine之类的文件中看一下吧.这么多文件怎么办?我从Windows.文件搜索