1.设置ROBOTSTXT_OBEY,由true变为false
2.设置DEFAULT_REQUEST_HEADERS,将其改为request headers
3.根据请求链接,发出第一个请求,设置一个start_request方法,并在方法中定义相关的配置,比如在本例中设置搜索的关键字keyword
4.接下来定义一个链接,也就是start_url,本例中改为search_url,其中把base_url定义为该类的全局变量,后面的参数用于翻页设置等
5.根据网页源码中的Form Data,定义一些其他的要求,比如本例中的最大页码数
6.在start_requests方法中,构造请求url的可变参数部分,search_url和keyword部分,用formate()传入
7.因为最大页数为100,接下来需要构造100个请求,利用for循环,page从1-100进行遍历
8.在for循环中把Form Data传过去,mp就是max_page,把mp和page都转换成字符串的形式
9.生成post请求,这里用FormRequest来构造,第一个参数就是构造的url,回调函数是网页解析方法parse_index函数,formdata直接赋值为data
10.借助cookie池,从中随机取出一个cookie赋值给request,所以接下来在middleware里面定义一个中间件,定义一个CookiesMiddleware类
11.在类中改写请求,定义一个process_request方法,在对request进行改写,先要拿到cookies
12.在类中定