Python 爬虫常用库的安装

安装方法

C:\Users\username\AppData\Local\Programs\Python\Python37\Scripts
pip.exe
pip3.7.exe
pip3.exe

这三个命令其实完全一致,只是名字不一样而已,建议添加到环境变量中去,方便实用。

安装第三方库:

pip install libraryname
1. urllib

python 自带,不用额外安装

import urllib
import urllib.request
response=urllib.request.urlopen("http://www.baidu.com")
print(response)

返回如下结果表示请求成功:
<http.client.HTTPResponse object at 0x0000021B8D6D8CF8>
2. request
import requests
response=requests.get("http://www.baidu.com")
print(response)

返回如下结果表示请求成功:
<Response [200]>
3. 正则表达式模块

re, python 自带,不用额外安装, 直接 import 不报错,证明该库正确安装

4. selenium

主要是用来做驱动浏览器的一个库,一般用来做自动化测试。我们在做爬虫的时候,会遇到一些 JS 渲染的网页,这时候用 requests 做请求的时候无法获取正确的请求内容。这时候我们用 selenium 就可以直接驱动浏览器,用浏览器直接执行 JS 的渲染,之后得到的结果就是渲染之后的界面,就可以拿到 JS 渲染之后的内容了。

5. chromedriver

下载时候注意版本问题。下 32位的,解压之后放到一个已经配置好环境变量的地方。

import selenium
from selenium import webdriver

driver = webdriver.Chrome()
driver.get("http://www.baidu.com")
print(driver.page_source)
6. plantomjs or headless

selenium 打开的时有界面的浏览器,plantomjs 打开的就是无界面的浏览器。

但是貌似废弃掉了, =-=,换成 headless

import selenium
from selenium import webdriver
from selenium.webdriver.chrome.options import Options

options = Options()
options.add_argument('--headless')
options.add_argument('--disable-gpu')
driver = webdriver.Chrome(options=options)
driver.get("https://cnblogs.com/")
print(driver.page_source)
7. LXML

网页解析用

8. beautifulsoup4
9. pyquery

解析DOM树和jQuery选择器

10. pymysql | pymongo | redis | flask | jango | jupyter
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值