简述python爬虫开发环境中几个爬虫库的主要用途_Python3网络爬虫开发实践读书笔记 --- 第一章开发环境配置...

最新推荐文章于 2024-04-21 18:19:02 发布

孟瑞霞

最新推荐文章于 2024-04-21 18:19:02 发布

阅读量153

点赞数

文章标签：简述python爬虫开发环境中几个爬虫库的主要用途

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_33348983/article/details/114039620

版权

本文是关于Python3爬虫开发环境配置的笔记，包括安装Python3.8，使用requests、Selenium、BeautifulSoup等库进行网页请求和解析，以及数据库MySQL、Redis的安装，还介绍了Flask、Scrapy等爬虫框架和部署工具。

摘要由CSDN通过智能技术生成

一直觉得爬虫是一个很有趣的方向，在互联网时代，谁掌握了数据，谁就掌握了未来，而爬虫就是获取数据的方法之一。这一系列文章是我在阅读“Python3网络爬虫开发实践”一书以及其他线上资料学习爬虫过程中的一些笔记和心得，希望能分享给大家。

第一章，开发环境配置

安装Python3.8

我开发的环境是Ubuntu16.04，安装Python最新版本的方法如下：

sudo apt-get update

sudo apt install build-essential zlib1g-dev libncurses5-dev libgdbm-dev libnss3-dev libssl-dev libreadline-dev libffi-dev wget

wget https://www.python.org/ftp/python/3.8.0/Python-3.8.0.tgz

tar -xf Python-3.8.0.tgz

cd Python-3.8.0

./configure --enable-optimizations

make -j 8

sudo make altinstall

python3.8 --version

安装第三方库和工具

要进行爬虫的实践，我们需要还原爬虫的步骤，主要分为以下几步：

分析不同的网站，寻找爬取目标URL

分析URL参数

发起请求，抓取网页

内容处理

数据存储

所以学习过程中也需要一些工具和库来模拟其中的步骤，我是根据Python3网络爬虫开发实践推荐的第三方库进行安装和进一步学习的。根据以上步骤对应安装的工具和第三方库如下：

请求库

a. request: pip3 install request

b. Selenium,自动化测试工具，可以驱动浏览器执行特定动作: pip3 install selenium

c. 浏览器及浏览器驱动(用于对接Selenium)，我用的Firefox和GeckoDriver

download from https://github.com/mozilla/geckodriver/releases

mv geckodriver /usr/bin

vi ~/.profile #export PATH="$PATH:/usr/local/geckodriver"

source ~/.profile

geckodriver #启动

d. PhantomJS

e. aiohttp: pip3 install aiohttp

解析库

a.lxml,支持HTML和XML的解析: pip3 install lxml

b.Beautiful Soup，支持HTML和XML的解析: pip3 install beautifulsoup4

c.pyquery，jQuery语法解析HTML文档和CSS选择器: pip3 install pyquery

d.tesserocr,验证码识别: sudo apt-get intall -y tesserocr-ocr libtesserocr-dev libleptonica-dev

数据库

a.MySQL

sudo apt-get install -y mysql-server mysql-client

sudo service mysql start

sudo service mysql stop

sudo service mysql restart

b.Redis

sudo apt-get install -y redis-server

存储库 (Python用于与数据库交互的存储库)

a.PyMySQL: pip3 install pymysql

b.PyMongo: pip3 install pymongo

c.redis-py: pip3 install redis

d.RedisDump: pip3 install redis-dump

Web库

a.Flask: pip3 install flask

b.Tornado: pip3 install tornado

爬虫框架

a.pyspider: pip3 install pyspider

b.Scrapy: pip3 install Scrapy

c.Scrapy-Splash: pip3 install scrapy-splash

d.Scrapy-Redis: pip3 install scrapy-redis

部署

a.Docker https://docs.docker.com/insta...

b.Scrapyd: pip3 install scrapyd

c.Scrapyd-Client: pip3 install scrapyd-client

d.Scrapyd API: pip3 install python-scrapyd-api

e.Scrapyrt: pip3 install scrapyrt

f.Gerapy: pip3 install gerapy

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
简述python爬虫开发环境中几个爬虫库的主要用途_Python3网络爬虫开发实践读书笔记 --- 第一章开发环境配置...

一直觉得爬虫是一个很有趣的方向，在互联网时代，谁掌握了数据，谁就掌握了未来，而爬虫就是获取数据的方法之一。这一系列文章是我在阅读“Python3网络爬虫开发实践”一书以及其他线上资料学习爬虫过程中的一些笔记和心得，希望能分享给大家。第一章，开发环境配置安装Python3.8我开发的环境是Ubuntu16.04，安装Python最新版本的方法如下：sudo apt-get updatesudo ap...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。