BeautifulSoup4 : 解析HTML
//安装:
pip install beautifulsoup4
lxml : 解析HTML
1.安装lxml:
pip install lxml
2.wheel下载
找到lxml的位置,会看到一系列.whl文件,根据自己的Python版本和Windows版本选择相应的文件下载,
cp代表Python版本,cp35指Python3.5,win32指Windows32位,amd64指Windows64位。下载后不要修改文件名。
3.wheel安装
pip install lxml-4.2.5-cp27-cp27m-win_amd64.whl
requests : HTTP库
python实现的简单易用的HTTP库,使用起来比urllib简洁很多
//安装:
pip install requests
其他
pip版本
pip --version
pip版本过低进行升级
python -m pip install --upgrade pip
查看python安装的包:
pip list
python解析HTML的方式对比
抓取工具 | 速度 | 使用难度 | 安装难度 |
---|---|---|---|
正则 | 最快 | 困难 | 无(内置) |
beautifulsoup | 慢 | 最简单 | 简单 |
lxml | 快 | 简单 | 一般 |
pycharm下载库
注意: 除了使用easy_insatll和pip工具安装Python第三方库外还可以使用pycharm安装Python第三方库,步骤如下:
点击Install Package即可安装此库。
安装scrapy
准备工作:下载 .whl 文件
打开 https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml 搜索 lxml 、 Twisted 并下载
得到以下文件:
lxml-4.2.5-cp27-cp27m-win_amd64.whl
Twisted-18.9.0-cp27-cp27m-win_amd64.whl
注意:
根据自己的Python版本和Windows版本选择相应的文件下载,
cp代表Python版本,cp35指Python3.5,
win27指Windows27位,amd64指Windows64位。
下载后不要修改文件名。
//安装lxml
pip install lxml
//进入到 lxml-4.2.5-cp27-cp27m-win_amd64.whl 目录下:
pip install lxml-4.2.5-cp27-cp27m-win_amd64.whl
//安装Twisted
//进入到 Twisted-18.9.0-cp27-cp27m-win_amd64.whl 目录下:
pip install Twisted-18.9.0-cp27-cp27m-win_amd64.whl
安装pywin32
https://sourceforge.net/projects/pywin32/files/pywin32/Build 221/
注意:要跟python版本和windows版本一致:
64位系统选amd64 , python版本2.7选py2.7
安装pyOpenSSL
pip install pyOpenSSL
安装wheel
//首先安装wheel
pip install wheel
//安装完成后验证是否成功
wheel
//https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml
//搜索scrapy并下载,cmd到目录进行安装
pip install Scrapy-1.5.1-py2.py3-none-any.whl
安装scrapy
首先scrapy的安装之前需要安装这个模块:
wheel、lxml、Twisted、pywin32,最后在安装scrapy
pip install Scrapy
创建scrapy项目:
新建python项目:
在pycharm的terminal中输入scrapy startproject module(自定义模块名)
建好后可查看到项目结构