Python爬虫实战入门一:工具准备

一、基础知识

使用Python编写爬虫,当然至少得了解Python基本的语法,了解:

  • 基本数据结构
  • 数据类型
  • 控制流
  • 函数的使用
  • 模块的使用

不需要过多过深的Python知识,仅此而已。
个人推荐《Python简明教程》、Python官方的《Python教程》

 

二、开发环境、

  • 操作系统Windows 7
  • Python版本:Python 3.4
  • 代码编辑运行环境:个人推荐PyCharm社区版,当然,Python自带的IDLE也行,Notepad++亦可,只要自己使用得习惯。

如果你在学习Python的过程中遇见了很多疑问和难题,可以加-q-u-n   227 -435-450里面有软件视频资料免费

三、第三方依赖库

  • requests:一个方便、简洁、高效且人性化的HTTP请求库
  • BeautifulSoup:HTML解析库
  • pymongo:MongoDB的Python封装模块
  • selenium:一个Web自动化测试框架,用于模拟登录和获取JS动态数据
  • pytesseract:一个OCR识别模块,用于验证码识别
  • Pillow:Python图像处理模块

 

四、第三方库安装:

上面列出的第三方模块大多可以通过pip install ××的方式直接安装,部分模块安装方式不一样,下面一一演示:
requests
pip install requests

 

BeautifulSoup
pip install bs4

image.php?url=0JrPpnM0fq

pymongo
pip install pymongo

image.php?url=0JrPpne7DN

selenium
pip install selenium

image.php?url=0JrPpnqwDz

Pillow
1、打开http://www.lfd.uci.edu/~gohlke/pythonlibs/
2、搜索找到“pillow”
3、根据自己系统的版本选择对应的下载包

image.php?url=0JrPpnzzO0

4、安装
pip install Pillow‑4.0.0‑cp34‑cp34m‑win32.whl

image.php?url=0JrPpnGczq

pytesseract
1、pip install pytesseract

 

2、安装tesseract
下载并安装:

这样,我们的准备工作就基本完成,如果有另外的需求,在实战中再进行安装,接下来就可以实战Python爬虫实战了。

 

转载于:https://my.oschina.net/u/3849396/blog/2249220

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值