爬虫
python 爬虫的相关技术和问题
夏目-
这个作者很懒,什么都没留下…
展开
-
爬虫:使用爬虫爬取数据时遇到需要展开的文字怎么处理
使用Chrome浏览器F12打开开发者模式,转到Network这一栏先把请求清空,然后点击展开按钮。原创 2020-08-08 11:51:10 · 3544 阅读 · 1 评论 -
Scrapy系统代理和自定义代理中间件
一、系统代理代理控制出站和进站顺序(出是先经过代理然后下载器,入相反)1、优先级控制出站和进站顺序(出是先经过代理然后下载器,入相反)scrapy crawl httpbin --nolog –nolog : 不打印日志信息系统代理1、配置代理所有的http请求将由我们指定的ip和port出去(linux&mac)export http_proxy='http://*.*.*.*:80' 这只是临时修改,永久修改需要修改配置文件。2、更改settings.py配置文件原创 2020-08-02 16:59:58 · 4388 阅读 · 0 评论 -
Scrapy爬虫框架详解(项目实战)
官方文档:https://scrapy.org/一、Scrapy框架介绍写一个爬虫,需要做很多的事情。比如:发送网络请求、数据解析、数据存储、反反爬虫机制(更换ip代理、设置请求头等)、异步请求等。这些工作如果每次都要自己从零开始写的话,比较浪费时间。因此Scrapy把一些基础的东西封装好了,在他上面写爬虫可以变的更加的高效(爬取效率和开发效率)。因此真正在公司里,一些上了量的爬虫,都是使用Scrapy框架来解决。二、Scrapy架构图三、Scrapy 工作流程四、Scrapy框架模块功能原创 2020-08-01 10:11:19 · 3431 阅读 · 0 评论 -
反爬虫-反反爬虫
一、常见的反爬虫手段1、User_Agent 浏览器类型、版本信息等2、Referer 表示我们从哪个连接跳转过来的3、Cookis 登录信息二、常用的反反爬虫手段1、模拟用户浏览器的User_Agent2、模拟用户登录(1) requestes 的 post 请求(2) WebDriver 模拟浏览器行为3、验证码三、实例1、模拟用户浏览器的User_Agent(1)使用第三方库#安装第三方库pip install fak原创 2020-07-24 15:52:29 · 2759 阅读 · 0 评论