python15

一、Scrapy项目创建

1.scrapy startproject ZhipinSpider

2.使用如下命令来开启 shell 调试
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

二、Scrapy爬虫项目开发过程详解

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
因此,开发者主要就是做两件事情:
1.将要爬取的各页面 URL 定义在 start_urls 列表中。
2.在 parse(self, response) 方法中通过 XPath 或 CSS 选择器提取项目感兴趣的信息。

在这里插入图片描述
extract()-------------------------------返回列表
extract()[0],extract_first()---------------------返回str

Spider 使用 yield 将 item 返回给 Scrapy 引擎之后,Scrapy 引擎将这些 item 收集起来传给项目的 Pipeline,因此自然就到了使用 Scrapy 开发爬虫的第二步。

三、编写 pipelines.py 文件,该文件负责将所爬取的数据写入文件或数据库中。

在这里插入图片描述

四、修改 settings.py 文件进行一些简单的配置,比如增加 User-Agent 头。取消 settings.py 文件中如下代码行的注释,并将这些代码行改为如下形式:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
应该将上面这段代码放在 parse(self, response) 方法的后面,这样可以保证 Spider 在爬取页面中所有项目感兴趣的工作信息之后,才会向下一个页面发送请求。

上面程序中第 2 行代码解析页面中的“下一页”链接;第 7 行代码显式使用 scrapy.Request 来发送请求,并指定使用 self.parse 方法来解析服务器响应数据。需要说明的是,这是一个递归操作,即每当 Spider 解析完页面中项目感兴趣的工作信息之后,它总会再次请求“下一页”数据,通过这种方式即可爬取广州地区所有的热门职位信息。

scrapy.Request(new_line,callback=self.parse,dont_filter=True)

dont_filter=True ---------------------------------------------表示url不过滤

六、scrapy爬虫数据保存到MySQL数据库

在这里插入图片描述
将 Pipeline 文件改为如下形式,即可将爬取到的信息保存到 MySQL 数据库中:
在这里插入图片描述

七、 Scrapy反爬虫常见解决方案(包含5种方法)

1.IP 地址验证
在这里插入图片描述
2.禁用Cookie
在这里插入图片描述
3.违反爬虫规则文件
在这里插入图片描述
4.限制访问频率
在这里插入图片描述

5.图形验证码
在这里插入图片描述

八、Selenium整合:启动浏览器并登陆

为了登录该网站,通常有两种做法:
1.直接用爬虫程序向网站的登录处理程序提交请求,将用户名、密码、验证码等作为请求参数,登录成功后记录登录后的 Cookie 数据。
2.使用真正的浏览器来模拟登录,然后记录浏览器登录之后的 Cookie 数据。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值