一、Scrapy项目创建
1.scrapy startproject ZhipinSpider
2.使用如下命令来开启 shell 调试
二、Scrapy爬虫项目开发过程详解
因此,开发者主要就是做两件事情:
1.将要爬取的各页面 URL 定义在 start_urls 列表中。
2.在 parse(self, response) 方法中通过 XPath 或 CSS 选择器提取项目感兴趣的信息。
extract()-------------------------------返回列表
extract()[0],extract_first()---------------------返回str
Spider 使用 yield 将 item 返回给 Scrapy 引擎之后,Scrapy 引擎将这些 item 收集起来传给项目的 Pipeline,因此自然就到了使用 Scrapy 开发爬虫的第二步。
三、编写 pipelines.py 文件,该文件负责将所爬取的数据写入文件或数据库中。
四、修改 settings.py 文件进行一些简单的配置,比如增加 User-Agent 头。取消 settings.py 文件中如下代码行的注释,并将这些代码行改为如下形式:
应该将上面这段代码放在 parse(self, response) 方法的后面,这样可以保证 Spider 在爬取页面中所有项目感兴趣的工作信息之后,才会向下一个页面发送请求。
上面程序中第 2 行代码解析页面中的“下一页”链接;第 7 行代码显式使用 scrapy.Request 来发送请求,并指定使用 self.parse 方法来解析服务器响应数据。需要说明的是,这是一个递归操作,即每当 Spider 解析完页面中项目感兴趣的工作信息之后,它总会再次请求“下一页”数据,通过这种方式即可爬取广州地区所有的热门职位信息。
scrapy.Request(new_line,callback=self.parse,dont_filter=True)
dont_filter=True ---------------------------------------------表示url不过滤
六、scrapy爬虫数据保存到MySQL数据库
将 Pipeline 文件改为如下形式,即可将爬取到的信息保存到 MySQL 数据库中:
七、 Scrapy反爬虫常见解决方案(包含5种方法)
1.IP 地址验证
2.禁用Cookie
3.违反爬虫规则文件
4.限制访问频率
5.图形验证码
八、Selenium整合:启动浏览器并登陆
为了登录该网站,通常有两种做法:
1.直接用爬虫程序向网站的登录处理程序提交请求,将用户名、密码、验证码等作为请求参数,登录成功后记录登录后的 Cookie 数据。
2.使用真正的浏览器来模拟登录,然后记录浏览器登录之后的 Cookie 数据。