请求库:requests, selenium
解析库:lxlm, beautifulsoup, pyquery,
存储库:redis, pymysql, pymongo
工具库:flask, django
python内置库:urllib,re
import urllib
import urllib.request
urllib.request.urlopen(‘http://www.baidu.com’)
<http.client.HTTPResponse object at 0x0000018751F183C8>
import re
安装请求库requests
C:\Users\Раиса>pip install requests
C:\Users\Раиса>python
import requests
requests.get(‘http://www.baidu.com’)
<Response [200]>
安装请求库selenium:直接驱动浏览器执行js渲染
C:\Users\Раиса>pip install selenium
C:\Users\Раиса>python
import selenium
from selenium importwebdriver
driver = webdriver.Chrome()
#需要安装chrome浏览器及对应的chromedriver,解压后的chromedriver.exe要放在建立了环境变量的scripts目录下,可以安装在python>scripts目录,也可以安装在anaconda>scripts目录
driver.get(‘http://baidu.com’)
#使用这个库的时候,会弹出chrome浏览器,上面这行命令运行的时候chrome浏览器会打开百度官网
driver.page_source #打印出网页的源代码
官网下载phantomjs
#在做爬虫的时候,一直出现一个浏览器是非常不方便的,这个库会让浏览器在后台静默运行,我们看不到任何输出
#下载解压后,bin文件里的exe要配置到环境变量里去,把bin目录建立路径。
from selenium import webdriver
driver = webdriver.PhantomJS()
driver.get(‘http://baidu.com’)
driver.page_source #打印出网页的源代码
安装lxml库:网页解析
C:\Users\Раиса>pip install lxml
C:\Users\Раиса>python
import lxml
安装beautifulsoup库:网页解析
#这个库依赖于lxml库
C:\Users\Раиса>pip install beautifulsoup4
C:\Users\Раиса>python
from bs4 import BeautifulSoup
soup = BeautifulSoup(’(html)(/html)’,‘lxml’)
使用pyquery库:网页解析
from pyquery import PyQuery as pq
doc = pq(’(html)(/html)’)
doc = pq(’(html)hello(/html)’)
result = doc(‘html’).text()
result
安装存储库pymysql:关系型数据库
import pymysql
conn = pymysql.connect(host = ‘localhost’,user=‘root’,password=‘6ygvbh6ygvbh’,port = 3306,db = ‘mysql’)
cursor = conn.cursor()
cursor.execute(‘select * from db’)
2
安装存储库pymongo库:非关系型、key-value型数据库、动态增加键名
C:\Users\Раиса>pip install pymongo
安装存储库redis库:非关系型、key-value型数据库
#GitHub下载Redis和RedisDesktopManager
C:\Users\Раиса>pip install redis
安装工具库flask库:设置外部服务器、接口
C:\Users\Раиса>pip install flask
安装工具库django库:外部服务器框架、后台管理、分布式爬虫维护
pip install django
本文介绍了Python爬虫中常用的库,包括请求库requests和selenium,解析库如lxml、beautifulsoup和pyquery,存储库如redis、pymysql和pymongo,以及工具库flask和django。通过实例展示了如何安装和使用这些库,帮助读者理解它们在爬虫项目中的应用。

4044

被折叠的 条评论
为什么被折叠?



