网页爬取的三种方式

本文通过淘宝网图片爬取实例,详细介绍了利用Python进行网页爬取的三种方式:urllib.request、封装Request请求以及urlretrieve直接保存到硬盘。重点探讨了如何分析网页结构并实施爬取。
摘要由CSDN通过智能技术生成

 爬取的重点在于分析网页结构,以爬取淘宝网图片为例:
爬取网页有三种方式:
1.urllib.request
2.封装Request请求
3.urlretrieve直接写入硬盘
下面以第三种方法爬取xxx图片
代码如下:

#爬取网页有三种方式:urllib.request,封装Request请求,urlretrieve直接写入硬盘,下面以第三种方法爬取xxx图片
import urllib.request
'''爬取网页方法一:'''
data=urllib.request.urlopen('http://123.sogou.com').read().decode('utf-8','ignore')
#A=len(data)
'''爬取网页方法二:'''
url='http://123.sogou.com'
req=urllib.request.Request(url)
data2=urllib.request.urlopen(req).read().decode('utf-8','ignore')
#B=len(data2)
#爬取淘宝网'xxx'
import urllib.request
import re
key1="关键词"
key2=urllib.request.quote(key1) #对关键字进行编码处理
for i in range(1,10):   #获取各页
    try:        #底层网页爬取异常处理
        print("--------正在爬第"+str(i)+"页------------")
        url="https://s.taobao.com/search?q=&
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值