python爬虫常用库:请求、解析、存储、工具库

本文介绍了Python爬虫中常用的库,包括请求库requests和selenium,解析库如lxml、beautifulsoup和pyquery,存储库如redis、pymysql和pymongo,以及工具库flask和django。通过实例展示了如何安装和使用这些库,帮助读者理解它们在爬虫项目中的应用。

请求库:requests, selenium

解析库:lxlm, beautifulsoup, pyquery,

存储库:redis, pymysql, pymongo

工具库:flask, django

python内置库:urllib,re

import urllib

import urllib.request

urllib.request.urlopen(‘http://www.baidu.com’)

<http.client.HTTPResponse object at 0x0000018751F183C8>

import re

安装请求库requests

C:\Users\Раиса>pip install requests

C:\Users\Раиса>python

import requests

requests.get(‘http://www.baidu.com’)

<Response [200]>

安装请求库selenium:直接驱动浏览器执行js渲染

C:\Users\Раиса>pip install selenium

C:\Users\Раиса>python

import selenium

from selenium importwebdriver

driver = webdriver.Chrome()

#需要安装chrome浏览器及对应的chromedriver,解压后的chromedriver.exe要放在建立了环境变量的scripts目录下,可以安装在python>scripts目录,也可以安装在anaconda>scripts目录

driver.get(‘http://baidu.com’)

#使用这个库的时候,会弹出chrome浏览器,上面这行命令运行的时候chrome浏览器会打开百度官网

driver.page_source #打印出网页的源代码

官网下载phantomjs

#在做爬虫的时候,一直出现一个浏览器是非常不方便的,这个库会让浏览器在后台静默运行,我们看不到任何输出

#下载解压后,bin文件里的exe要配置到环境变量里去,把bin目录建立路径。

from selenium import webdriver

driver = webdriver.PhantomJS()

driver.get(‘http://baidu.com’)

driver.page_source #打印出网页的源代码

安装lxml库:网页解析

C:\Users\Раиса>pip install lxml

C:\Users\Раиса>python

import lxml

安装beautifulsoup库:网页解析

#这个库依赖于lxml库

C:\Users\Раиса>pip install beautifulsoup4

C:\Users\Раиса>python

from bs4 import BeautifulSoup

soup = BeautifulSoup(’(html)(/html)’,‘lxml’)

使用pyquery库:网页解析

from pyquery import PyQuery as pq

doc = pq(’(html)(/html)’)

doc = pq(’(html)hello(/html)’)

result = doc(‘html’).text()

result

安装存储库pymysql:关系型数据库

import pymysql

conn = pymysql.connect(host = ‘localhost’,user=‘root’,password=‘6ygvbh6ygvbh’,port = 3306,db = ‘mysql’)

cursor = conn.cursor()

cursor.execute(‘select * from db’)

2

安装存储库pymongo库:非关系型、key-value型数据库、动态增加键名

C:\Users\Раиса>pip install pymongo

安装存储库redis库:非关系型、key-value型数据库

#GitHub下载Redis和RedisDesktopManager

C:\Users\Раиса>pip install redis

安装工具库flask库:设置外部服务器、接口

C:\Users\Раиса>pip install flask

安装工具库django库:外部服务器框架、后台管理、分布式爬虫维护

pip install django

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值