爬虫基本

本文介绍了Python爬虫的基本知识,包括爬虫的定义、工作原理和分类。讲解了urllib库的使用,如UserAgent、ProxyHandler、cookie和session的处理。接着介绍了Requests库的get、post请求、代理、验证及cookie的处理。讨论了页面解析和数据提取,涉及正则表达式、XML、XPath和CSS选择器。最后,提到了动态HTML的处理,包括Selenium和PhantomJS的使用,以及验证码问题和解决方案。
摘要由CSDN通过智能技术生成

爬虫准备工作

1、爬虫简介

  • 定义:网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区,更经常被称为网页追逐者),是按照一定的规则,自动的抓取万维网信息的程序或脚本
  • 两大特征
    • 能安按照作者要求下载数据或者内容
    • 能自动在网络流窜
  • 三大步骤
    • 下载信息
    • 提取正确的信息
    • 根据一定的规则自动跳到另外的网页上执行上两步内容
  • 爬虫分类
    • 通用爬虫
    • 专用爬虫(聚焦爬虫)
  • python网络包简介
    • python2.x:urllib,urllib2,urllib3,httplib,httplib2,requests
    • python3.x:urllib,urllib3,httplib2,requests

2、urllib

  • 包含模块

      urllib.request:打开和读取urls        
      urllib.error:包含urllib.request产生的常见错误,使用try捕捉        
      urllib.parse:包含解析url的方法        
      urllib.robotparse:解析robots.txt文件
    
  • 网页编码问题的解决

      chardet包:       
      可以自动检测页面文件的编码格式,但是不一定准确        
      需要安装:        
      conda install chardet        
    
  • urlopen的返回对象

    • geturl:返回请求对象的url
    • info:请求反馈对象的meta信息
    • getcode:返回的http code
  • request.data的使用

  • 访问网络的两种方法

    • get: 利用参数给服务器传递信息
    • 参数为dict,然后用parse编码
    • post
      一般向服务器传递参数,使用POST
      POST把信息自动加密处理
      我们使用post信息,需要使用data参数
      使用post,意味着HTTP的请求头可能需要修改
      Content—Type:application/x-www.from-urlencode
      Content-Length:数据长度
      简而言之,一旦更改请求方法,其他请求头部信息也应该与之相适应
      • urllib.parse.urlencode可以将字符串自动转换成上面的
      • 为了更多的设置请求信息,单纯的通过urlopen 函数已经不太好用
      • 需要利用request.Request类
  • urllib.error

    • URLError产生的原因
      没网
      服务器连接失败
      知不道指定服务器
    • HTTPError,是URLError的一个子类
    • 两者的区别
      HTTPError是对应的HTTP请求的返回码 错误,如果返回的是400以上的,就引发HTTP错误 URLError对应的一般是网络出现问题,包括url问题

1、UserAgent

  • UserAgent:用户代理,简称UA,属于heads的一部分,服务器通过UA来判断访问者身份

  • 常见的UA值,使用的时候可以直接复制粘贴,也可以用浏览器访问的时候抓包
    PC端

      1、chrome        Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36        Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11        Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.648.133 Safari/534.16
      2、Firefox        Mozilla/5.0 (Windows NT 6.1; WOW64; rv:34.0) Gecko/20100101 Firefox/34.0        Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.10) Gecko/20100922 Ubuntu/10.10 (maverick) Firefox/3.6.10
      3、Opera        Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 OPR/26.0.1656.60        Opera/8.0 (Windows NT 5.1; U; en)        Mozilla/5.0 (Windows NT 5.1; U; en; rv:1.8.1) Gecko/20061208 Firefox/2.0.0 Opera 9.50        Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; en) Opera 9.50
      4、Safari        Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.57.2 (KHTML, like Gecko) Version/5.1.7 Safari/534.57.2
      5、360        Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/30.0.1599.101 Safari/537.36        Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko
      6、QQ浏览器        Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值