爬虫
吱吱不倦小子
学人之所学,成人之所成。(学习内容来源网上整理,如有侵权,请联系我删除。)
展开
-
五月总结
反爬虫的主要手段及处理方法1, Headers限制 添加headers,通过按浏览器的F12,找到对应的header2, IP限制 通过添加代理解决3, 动态加载 通过js的分析,或者模拟动态加载4, 验证码 图片识别技术,牵扯到python高级5, 减少返回的信息 返回的信息被偷掉6, 返回伪造的信息...原创 2018-06-26 17:54:53 · 367 阅读 · 0 评论 -
某站点的网址分析与下载总结
一,站点难点分析 1,构造地址难度大,所有的地址通过ajax请求访问并通过多个js封装调用,参数通过sql字段拼接。 2,即使构造好地址,通过浏览器打开,全部返回首页。二,站点的解决办法(selenium+webdriver+xpath+mysql) 综上分析站点的技术难点,通过以下几种方法解决 1,单纯的通过构造地址的方式请求网页的方法是不...原创 2018-08-03 17:26:14 · 421 阅读 · 0 评论 -
Urllib的使用(一)
1,使用urllib爬取网页首先需要导入对应的模块import urllib.request2,在导入模块后,我们需要使用urllib.request.urlopen打开并爬取一个网页。(以百度网址http://www.baidu.com为例)file=urllib.request.urlopean("http://www.baidu.com")3,读取网页内容data=...原创 2018-08-23 15:27:06 · 573 阅读 · 0 评论 -
urllib使用补充(二)
除一提到之外,urllib中还有一些常见的用法如果希望返回与当前环境有关的信息,我们可以用info()返回,格式为“爬取的网页.info()”,爬取的网页赋值为filefile.info()如果希望获取当前爬取网页的状态码,我们可以使用getcode(),格式为“爬取的网页.getcode()”,爬取的网页赋值为filefile.getcode()如果想要获得当前爬取的ur...原创 2018-08-23 15:40:58 · 234 阅读 · 0 评论 -
scrapy中 HTTP status code is not handled or not allowed异常处理
scrapy中的setting文件中添加HTTPERROR_ALLOWED_CODES = [403]原创 2018-08-20 17:42:20 · 8503 阅读 · 6 评论 -
浏览器的模拟——Headers属性
有的时候,我们无法爬取一些网页,会出现403错误,因为这些网页为了防止别人恶意采集其信息所以进行了一些反爬虫的设置。那么可以设置Header信息,模拟浏览器去访问这些网站,此时,就能解决这个问题。添加User-Agent的两种方法方法一:使用build_opean()修改包头import urllib.requesturl="https://blog.csdn.net/u0131...原创 2018-08-23 16:22:19 · 2409 阅读 · 0 评论 -
豆瓣个人信息的爬取
通过scrapy框架模拟登陆豆瓣并进入个人信息页面# -*- coding: utf-8 -*-import scrapyfrom scrapy.http import Request,FormRequestimport urllib.requestclass DbSpider(scrapy.Spider): name = 'db' allowed_domains ...原创 2018-08-21 15:04:16 · 2844 阅读 · 2 评论 -
python处理html中的以&#开头的编码
乱码格式类似‘图灵程序设计丛书’代码为:text='图灵程序设计&原创 2018-11-08 16:29:35 · 3154 阅读 · 1 评论