python 网页爬虫nike_python网络爬虫-爬取网页的三种方式（1）

思想化作潮流

于 2021-01-28 23:09:21 发布

阅读量604

点赞数

文章标签： python 网页爬虫nike

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_29467373/article/details/113496877

版权

本文介绍了使用Python进行网页爬虫的三种方式：正则表达式、BeautifulSoup和lxml。通过示例展示了如何分别利用这三种方法抓取网页表格中的特定数据，并对比了它们在处理复杂网页结构时的差异和适用场景。

摘要由CSDN通过智能技术生成

0.前言

0.1 抓取网页

本文将举例说明抓取网页数据的三种方式：正则表达式、BeautifulSoup、lxml。

获取网页内容所用代码详情请参照Python网络爬虫-你的第一个爬虫。利用该代码获取抓取整个网页。

import requests

def download(url, num_retries=2, user_agent='wswp', proxies=None):

'''下载一个指定的URL并返回网页内容

参数：

url(str): URL

关键字参数：

user_agent(str):用户代理(默认值：wswp)

proxies(dict)：代理(字典): 键：‘http’'https'

值：字符串(‘http(s)://IP’)

num_retries(int):如果有5xx错误就重试(默认：2)

#5xx服务器错误，表示服务器无法完成明显有效的请求。

#https://zh.wikipedia.org/wiki/HTTP%E7%8A%B6%E6%80%81%E7%A0%81

'''

print('==========================================')

print('Downloading:', url)

headers = {'User-Agent': user_agent} #头部设置，默认头部有时候会被网页反扒而出错

try:

resp = requests.get(url, headers=headers, proxies=proxies) #简单粗暴，.get(url)

html = resp.text #获取网页内容，字符串形式

if resp.status_code >= 400: #异常处理，4xx客户端错误返回None

print('Download error:', resp.text)

html = None

if num_retries and 500 <= resp.status_code < 600:

# 5类错误

return download(url, num_retries - 1)#如果有服务器错误就重试两次

except requests.exceptions.RequestException as e: #其他错误，正常报错

print('Download error:', e)

html = None

return html #返回html

0.2 爬取目标

6290eceea68f?from=singlemessage

网页结构

分析网页结构可以看出，所有内容都在标签

7,686,850 s

最低0.47元/天解锁文章

思想化作潮流

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 网页爬虫nike_python网络爬虫-爬取网页的三种方式（1）

0.前言0.1 抓取网页本文将举例说明抓取网页数据的三种方式：正则表达式、BeautifulSoup、lxml。获取网页内容所用代码详情请参照Python网络爬虫-你的第一个爬虫。利用该代码获取抓取整个网页。import requestsdef download(url, num_retries=2, user_agent='wswp', proxies=None):'''下载一个指定的URL并返...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。