Python爬虫
python web菜鸟
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python利用selenium爬取去哪儿网
##加粗样式 需要解决的难题: 1) 验证码的识别 2) 对网页的验证码进行截取 2) IP池的构建 3) 对网页延迟加载的解决 第一步: 验证码的识别: 之前也试过写个算法,对验证码进行识别,但是太复杂了,没能实现,网上搜索,发现有个"云打码"的平台,能够识别,准确率高达98%,下面是Python对这个接口的引用: #coding=utf-8 import json import ti...原创 2018-11-04 17:48:01 · 1954 阅读 · 2 评论 -
Python反爬虫机制
添加请求头User-Agent: 如果不添加请求头,网站会认为不是用浏览器操作,会进行反爬虫,添加请求头,网站会识别你是用哪个浏览器,不同的浏览器User-Agent不同 修改访问频率: 大多数情况下,我们遇到的是访问频率限制。如果你访问太快了,网站就会认为你不是一个人。这种情况下需要设定好频率的阈值,否则有可能误伤。 遇到这种网页,最直接的办法是限制访问时间 需要你限制不定的时间,不能用...翻译 2018-12-26 10:59:34 · 427 阅读 · 0 评论
分享