python抓取网页数据并截图_python抓取简单网页数据的小实例

最新推荐文章于 2024-05-14 06:48:47 发布

比的原理

最新推荐文章于 2024-05-14 06:48:47 发布

阅读量726

点赞数

文章标签： python抓取网页数据并截图

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_32593721/article/details/113670450

版权

本文提供了一个使用Python的requests和BeautifulSoup库抓取ittf网站上特定页面所有选手超链接的实例。首先通过requests获取网页文本，然后用BeautifulSoup解析HTML，找到包含'WR_Table_3_A2_Details.asp'的链接并保存。

摘要由CSDN通过智能技术生成

抓取网页数据的思路有好多种，一般有：直接代码请求http、模拟浏览器请求数据(通常需要登录验证)、控制浏览器实现数据抓取等。这篇不考虑复杂情况，放一个读取简单网页数据的小例子：

目标数据

将ittf网站上这个页面上所有这些选手的超链接保存下来。

数据请求

真的很喜欢符合人类思维的库，比如requests，如果是要直接拿网页文本，一句话搞定：

doc = requests.get(url).text

解析html获得数据

以beautifulsoup为例，包含获取标签、链接，以及根据html层次结构遍历等方法。参考见这里。下面这个片段，从ittf网站上获取指定页面上指定位置的链接。

url = 'http://www.ittf.com/ittf_ranking/WR_Table_3_A2.asp?Age_category_1=&Age_category_2=&Age_category_3=&Age_category_4=&Age_category_5=&Category=100W&Cont=&Country=&Gender=W&Month1=4&Year1=2015&s_Player_Name=&Formv_WR_Table_3_Page='+str(page)

doc = requests.get(url).text

soup = BeautifulSoup(doc)

atags = soup.find_all('a')

rank_link_pre = 'http://www.ittf.com/ittf_ranking/'

mlfile = open(linkfile,'a')

for atag in atags:

#print atag

if atag!=None and atag.get('href') != None:

if "WR_Table_3_A2_Details.asp" in atag['href']:

link = rank_link_pre + atag['href']

links.append(link)

mlfile.write(link+'\n')

print 'fetch link: '+link

mlfile.close()

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。