自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

阿泽的个人博客

初来乍到,感谢有你

  • 博客(4)
  • 收藏
  • 关注

原创 scrapy项目>代理>验证码问题

一,项目问题:1、你写爬虫的时候都遇到过什么反爬虫措施,你最终是怎样解决的 1,通过headers反爬虫: 解决策略,伪造headers 2,基于用户行为反爬虫: 动态变化去爬取数据,模拟普通用户的行为, 使用IP代理池爬取或者降低抓取频率,或 通过动态更改代理ip来反爬虫 3,基于动态页面的反爬虫: 跟踪服务器发送的ajax请求,模拟ajax请求,selnium和phtamjs...

2022-05-20 01:36:19 988

原创 scrapy面试个人总结问题

简单爬虫:使用Python内置的urlib 库 获取网页的Html信息用的方法的 request使用Request可以添加请求头参数,模拟浏览器发送请求scrapy爬虫:爬虫原理1)Scrapy Engine引擎 负责控制数据流在系统组件的流动,当特定动作发生时触发事件 2)Scheduler调度器 从引擎中接收request并且将他们入队 3)Downloader下载器 负责获取页面数据并且提供给引擎,之后提供给spider...

2022-05-20 01:35:29 1221

原创 scrapy常用问题

1、动态加载又对及时性要求很高怎么处理? 1,selenium+Phantomjs 2,尽量不适用sleep而是用WebDriverWait2、分布式爬虫主要解决什么问题? 1,ip 2,宽带 3,cpu 4,io3、什么是URL? URL,即统一资源定位符,也就是常见的网址,统一资源定位符是对可以从互联网是得到的资源的位置和访问方法的一种简介的表示 是互联网上标准资源的地址。互联网是的每个文件都有一个唯一的URL,它包含的信息指出文...

2022-05-20 01:34:28 595

原创 python基本问题

1.python基础: (1)python基本类型有哪些? 有六个标准类型,分为可变和不可变;可变有:List(列表)、Dictionary(字典)、Set(集合);不可变有:Number(数字)、String(字符串)、Tuple(元组)。 (2)列表利用函数添加/删除数据? 末尾新添加对象:list.append(obj);对象插入指定位置:list.insert(index,obj);在列表末尾一次性添加多个值:list...

2022-05-20 01:32:53 412

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除