《Python3 网络爬虫开发实战》—学习笔记

开发环境配置

爬虫可以简单的分为几步:抓取页面、分析页面和存储数据。
在抓取页面的过程中,需要模拟浏览器向服务器发出请求,需要Python库来实现HTTP请求操作。

请求库安装

requests

pip3 install requests

Selenium

Selenium是一个自动化测试工具,利用它可以驱动浏览器执行特定的动作,如点击、下拉等操作。对于一些JavaScript渲染的页面来说,这种抓取方式非常有效。
pip3 install selenium

ChromeDriver

Selenium是一个自动化测试工具,需要浏览器来配合使用,ChromeDriver是Chrome浏览器的驱动配置。

  • 查看Google Chrome版本
    在这里插入图片描述
  • 下载对应的ChromeDriver
    在这里插入图片描述
  • 把下载的ChromeDriver.exe放到Google Chrome对应的目录下
    在这里插入图片描述
  • 把上面的目录添加到path路径下
    在这里插入图片描述
  • 测试代码
from selenium import webdriver
brower = webdriver.Chrome()
  • 运行代码后
    在这里插入图片描述

PhantomJS

PhantomJS是一个无界面的、可脚本编程的WebKit浏览器引擎,它原生支持多种Web标准:DOM操作、CSS选择器、JSON、Canvas以及SVG。

Selenium支持PhantomJS,这样在运行的时候就不会再弹出IG浏览器了。而且PhantomJS的运行效率也很高,还支持各种参数配置,使用非常方便。

  • 下载
  • 解压
  • exe文件放到ChromeDriver相同的目录下
    在这里插入图片描述
  • 验证
from selenium import webdriver
>>> brower = webdriver.PhantomJS()
>>> brower = webdriver.PhantomJS()
>>> brower.get('https://www.baidu.com')
>>> print(brower.current_url)
https://www.baidu.com/

aiohttp

requests库是一个阻塞式HTTP请求库,当我们发出一个请求后,程序会一直等待服务器响应,直到得到响应后,程序才会进行下一步处理。这个过程比较耗费时间。如果程序可以在这个等待过程中做一些其他的事情,如进行请求的调度、响应的处理等,那么爬取效率会大大提高。
aiohttp提供异步web服务的库,aiohttp的异步操作借助于async/await关键字的写法变得更加简洁,架构更加清晰。使用异步请求库进行数据抓取时,会大大提高效率。

pip3 install aiohttp

aiohttp库需要依赖setuptools库,如果环境中没有该库,需要自己安装。

pip3 install setuptools

另外官方推荐了两个库:一个是字符编码检测库cchardet,另一个是加速DNS的解析库aiodns。

pip3 install cchardet aiodns

解析库的安装

抓取网页代码后,需要从网页中提取信息。提取信息的方式多种多样,可以使用正则来提取,但是写起来相对比较繁琐。可以借鉴强大的解析库(lxml、Beautiful Soup、pyquery)和解析方法(XPath解析和CSS选择器解析),利用他们可以高效便捷的从网页中提取有效的信息。

lxml

lxml是Python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,且解析效率非常高。

pip3 install lxml

Beautiful Soup

Beautiful Soup是Python的一个HTML或XML的解析库,可以方便的从网页找那个提取数据,它拥有强大的API和多样的解析方式。

pip3 install beautifusoup4
>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup('<p>Hello</p>', 'lxml')
>>> print(soup.p.string)
Hello

注意:虽然安装的是beautifulsoup4这个包,但是引入的是bs4,这是因为这个包源代码本身的库文件名称就是bs4,所以安装完成后,这个库文件夹就被移入到Python3的lib库里,所以识别到的库文件名就叫作bs4。

pyquery

pyquery网页解析工具提供和jQuery类似的语法来解析HTML文档,支持CSS选择器。

pip3 install pyquery

tesserocr

在爬虫的过程中会遇到各种各样的验证码,大多数的验证码是图形验证码,这时候可以直接用OCR来识别。

OCR,即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说,它们都是一些不规则的字符,这些字符确实是由字符稍加扭曲变换得到的内容。

tesserocr是Python的一个OCR识别库,但其实是对tesseract做的一层Python API封装,所以它的核心是tesseract。因此,在安装tesserocr之前,需要先安装tesseract。

pip3 install tesserocr

数据库的安装

作为数据存储的重要部分,数据库同样是必不可少的,数据库可以分为关系型数据库和非关系型数据库。
关系型数据库如SQLite、MySQL、Oracle、SQL Server、DB2等,其数据库是以表的形式存储;非关系型数据库如MongoDB、Redis,它们的存储形式是键值对,存储形式更加灵活。

MySQL

MongoDB

MongoDB是由C++语言编写的非关系型数据库,是一个基于分布式文件存储的开源数据库系统,其内容存储形式类似JSON对象,它的字段值可以包含其他文档、数组及文档数组,非常灵活。

Redis

Redis是一个基于内存的高效的非关系型数据库。

存储库的安装

用来存储数据的数据库提供了存储服务,如果和Python交互,还需要安装Python存储库,如MySOL需要安装P有MySQL,MongoDB需要安装PyMongo。

PyMySQL

pip3 install pymaysql

PyMongo

pip3 install pymongo

redis-py

pip3 install redis

RedisDump

RedisDump是一个用于Redis数据导入/导出的工具,是基于Ruby实现的,所以要安装RedisDump,需要先安装Ruby。

Web库的安装

日常访问的网站都是Web服务程序搭建而成的,Python也需要这样的一些Web服务器程序,比如Flask、Django等。可以用它们来开发网站和接口等。在网络爬虫中主要使用这些Web服务器程序来搭建一些API接口。例如,维护一个代理池,代理保存在Redis数据库中,将代理池作为一个公共的组件使用,构建获取代理的平台需要通过Web服务提供一个API接口,这样只需要请求接口即可获取新的代理,这样做简单、高效、实用。

Flask

Flask 是一个轻量级的Web服务器程序,它简单、易用、灵活,主要用来做一些API服务。

pip3 install flask

Tornado

Tornado是一个支持异步的

参考资料

Chrome版本与chromedriver版本对照及下载【亲测有效】【71-73】
Download PhantomJS
MySQL安装教程(Windows系统)

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值