小爬虫一般步骤:
(1)下载数据
第三方包
urllib:系统自带,连接网络,urlopne,Request
如果下载的网址是https,需要导入ssl
准备数据
网址:
headres(请求头):
封装请求
request = Request(网址,请求头)
打开连接
conn = urlopen(request)
判断是否连接成功
if conn.code == 200:
data = conn.read()
文件下载
from urllib.request import urlretrieve
urlretrieve("文件地址","存储地址")
(2)处理数据
解压(可选项)
编码:网页编码格式,meta charset="编码格式"
data.decode(encoding=编码格式)
转换数据为HTML格式
lxml:etree
html = etree.HTML(data)
获取需要的数据
# //:前是什么东西我们都不考虑
正确取出信息的方式为"//标签名[@属性名='属性值']/标签名[@属性名='属性值']"
# 获取属性:@属性名
# 如果同一级出现多个标签 例:<div id="pic-meinv" class="pic-meinv" style="margin-bottom: 0;">
# 正确进入下一级的方式为"//div[@id='pic-meinv']/a/img"
获取内容:text()
内容列表 = html.xpath("")
循环遍历内容列表
内容
字符串方法进行处理