安装方法
C:\Users\username\AppData\Local\Programs\Python\Python37\Scripts
pip.exe
pip3.7.exe
pip3.exe
这三个命令其实完全一致,只是名字不一样而已,建议添加到环境变量中去,方便实用。
安装第三方库:
pip install libraryname
1. urllib
python 自带,不用额外安装
import urllib
import urllib.request
response=urllib.request.urlopen("http://www.baidu.com")
print(response)
返回如下结果表示请求成功:
<http.client.HTTPResponse object at 0x0000021B8D6D8CF8>
2. request
import requests
response=requests.get("http://www.baidu.com")
print(response)
返回如下结果表示请求成功:
<Response [200]>
3. 正则表达式模块
re, python 自带,不用额外安装, 直接 import
不报错,证明该库正确安装
4. selenium
主要是用来做驱动浏览器的一个库,一般用来做自动化测试。我们在做爬虫的时候,会遇到一些 JS 渲染的网页,这时候用 requests
做请求的时候无法获取正确的请求内容。这时候我们用 selenium
就可以直接驱动浏览器,用浏览器直接执行 JS 的渲染,之后得到的结果就是渲染之后的界面,就可以拿到 JS 渲染之后的内容了。
5. chromedriver
下载时候注意版本问题。下 32位的,解压之后放到一个已经配置好环境变量的地方。
import selenium
from selenium import webdriver
driver = webdriver.Chrome()
driver.get("http://www.baidu.com")
print(driver.page_source)
6. plantomjs
or headless
selenium
打开的时有界面的浏览器,plantomjs
打开的就是无界面的浏览器。
但是貌似废弃掉了, =-=,换成 headless
import selenium
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
options = Options()
options.add_argument('--headless')
options.add_argument('--disable-gpu')
driver = webdriver.Chrome(options=options)
driver.get("https://cnblogs.com/")
print(driver.page_source)
7. LXML
网页解析用
8. beautifulsoup4
9. pyquery
解析DOM树和jQuery选择器