lxml安装_python(一)爬虫依赖库安装

1.requests

但是安装并不是很顺利,可以看出最后一行报错,要求最低版本是19.0.3但是目前的pip版本为18.1,根据提示使用命令升级一下pip命令即可。

You are using pip version 18.1, however version 19.0.3 is available.You should consider upgrading via the 'python -m pip install --upgrade pip' command.#升级一下命令即可python -m pip install --upgrade pip
dee6d121ebcd92e86b4ee7070603fa52.png

看一下是否安装成功

 import requests requests.get("https://www.python.org")#如果返回Response [200]>则说明请求成功
06a0cfa3f971be7abd494444889a0322.png

2.selenium

脚本驱动浏览器,想驱动浏览器还得安装一个

chromedriver下载安装

下载地址:http://chromedriver.chromium.org/downloads

根据你浏览器的版本下载对应版本的driver驱动文件

我的是72所以我要下载2.46版本的驱动

3d53b1ed31a8e3f8396e2159dd0505b3.png
03c26f90529e7ea057b213e160e4312b.png

https://chromedriver.storage.googleapis.com/index.html?path=2.46/

解压之后将此文件放到配置有环境变量的文件夹下,或者你为它配置一下环境变量。目的是为了能够控制台随处调用而已。

9293b448d36b254f68be3ed07d8c85b3.png

我将它放到了我的python目录下,D:PythonScripts

#执行命令如果能自动打开Chrome则成功安装from selenium import webdriverdriver=webdriver.Chrome()
43a72c9ac304ecf1dfbe8cd257a040ec.png

我们请求一下网页,看到已经打开了网页

driver.get("https://cn.bing.com")
c1b8d9ef6c63623827db936d82a91ad1.png

使用

driver.page_source#命令可以打印出网页的源码
4c079c25b7d093f7aadceca75dd5a513.png

3.phantomjs(已废弃)

作用:无界面请求,不会每次都打开Chrome浏览器窗口,此项目已经在2019年03月04日 停止维护。所以不建议下载了,我尝试安装之后报错

下载地址:http://phantomjs.org/download.html

下载后解压配置环境变量:D:phantomjs-2.1.1-windowsbin

重新打开cmd窗口,如下则配置成功

7ef3a1e9afb0c071f4ca3fbc38268db9.png

果然有报错信息:

以我四级都还没过的水平也看出来说Selenium 不再支持PhantomJS ,请使用Firefox或者Chrome的无头模式。

D:Pythonlibsite-packagesseleniumwebdriverphantomjswebdriver.py:49: UserWarning: Selenium support for PhantomJS has been deprecated, please use headless versions of Chrome or Firefox instead warnings.warn('Selenium support for PhantomJS has been deprecated, please useheadless '

what are fuck

那么问题来了,Chrome是怎么使用无头模式的呢

5d3e620481f0f08d31fde174a0a211a6.png
from selenium import webdriverfrom selenium.webdriver.chrome.options import Options​chrome_options = Options()chrome_options.add_argument('--headless')chrome_options.add_argument('--disable-gpu')driver = webdriver.Chrome(chrome_options=chrome_options)driver.get("https://cn.bing.com")driver.page_sourcedriver.close()#用完记得关闭

4.lxml

作用:解析网页

5.beautifulsoup4

依赖于lxml

6.pyquery

类似于jQuery

7.pymysql

连接mysql

8.pymongo

mongodb

9.redis

10.flask

web服务器代理

11.django

web框架

12.jupyter

在线运行代码,notebook作用

默认会启动在8888端口上,并自动打开浏览器

4cd0ef6807c3d44c7c25b83f08d90c20.png

如果是在Mac或者linux下安装则更为简单:

7f5c34ff374216018137e2060e12fec4.png
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值