爬虫环境配置,需要安装的东西

aiohttp的安装:提供web服务的库

pip3 install aiohttp

字符编码检测库cchardet的安装,加速DNS的解析库aiodns的安装

pip3 install cchardet aiodns

安装完成测试:import aiohttp

 

 

解析库的安装

lxml的安装,lxml库支持HTML和xml的解析,支持Xpath解析方式,而且解析效率非常高

pip3 install lxml

验证测试:import lxml

 

Beautiful Soup的安装,Beautiful Soup是Python的一个HTML或xml的解析库,我们可以用它来方便地从网页中提取数据。

pip3 install beautifulsoup4

验证安装:

from bs4 import BeautifulSoup

soup=BeautifulSoup('<p>Hello</p>','lxml')

print(soup.p.string)

 

pyquery的安装

pyquery是一个强大的网页解析工具,它提供了和jQuery类似的语法来解析HTML文档,支持css选择器

pip3 install pyquery

验证安装:

import pyquery

 

tesserocr的安装

在爬虫过程中,我们用来识别图形验证码

在安装tesserocr之前,需要先安装tesseract,下载地址:http://digi.bib.uni-mannheim.de/tesseract

双击执行文件,

勾选Additional language data(download)选项来安装OCR识别支持的语言包,这样OCR便可以识别躲过语言。然后路点击Next即可。

再安装tesserocr:

pip3 install tesserocr pillow

验证安装:

tesseract image.png result -l eng && result.txt

或者

import tesserocr

from PIL import Image

image=Image.open('image.png')

print(tesseror.image_to_text(image))

或者

import tesserocr

print(tesserocr.file_to_text('image.png'))

 

Redis的安装

 https://github.com/MSOpenTech/redis/releases

 

PyMySQL的安装

pip3 install pymysql

验证安装:

import pymysql

pymysql.VERSION

 

PyMongo的安装

pip3 install pymongo

验证安装:

import pymongo

pymongo.verion

 

redis-py的安装

pip3 install redis

验证安装

import redis

redis.VERSION

 

Flask 的安装

pip3 install flask

 

Tornado的安装

pip3 install tornado

 

mitmproxy的安装

pip3 install mitmproxy

 

 

爬虫框架的安装

pyspider的安装

pip3 install pyspider

 

Scrapy的安装

安装lxml

安装pyOpenSSL:

pip install pyOpenSSL

下载地址:https://pypi.python.org/pypi/pyOpenSLL#downloads

pip3 install pyOpenSSL****.whl

 

安装Twisted

下载地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

pip3 install Twisted*******.whl

pip3 install Twisted

 

安装PyWin32

下载地址:https://sourceforge.net/projects/pywin32/files/pywin32/

pip3 install pywin32

 

安装Scrapy

pip3 install Scrapy

 

Scrapy-Redis安装

pip3 install scrapy-redis

 

Scrapyd安装

pip3 install scrapyd

 

Scrapyd-Client安装

pip3 install scrapyd-client

 

Scrapyd API安装

pip3 install python-scrapyd-api

 

Scrapyrt安装

pip3 install scrapyrt

 

Gerapy

pip3 install gerapy

 

MongoDB

https://www.mongodb.com/download-center

 

 

APP爬取库的安装

Charles的安装

https://www.charlesproxy.com/download

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值