Python 爬虫技巧1 | 将爬取网页中的相对路径转换为绝对路径

1.背景:

在爬取网页中的过程中,我对目前爬虫项目后端脚本中拼接得到绝对路径的方法很不满意,今天很无意了解到在python3 的 urllib.parse模块对这个问题有着非常完善的解决策略,真的是上天有眼,感动!

2.urllib.parse模块

This module defines a standard interface to break Uniform Resource Locator (URL) strings up in components (addressing scheme, network location, path etc.), to combine the components back into a URL string, and to convert a “relative URL” to an absolute URL given a “base URL.”

根据Python官网文档,我们可以大致了解到这个模块的3个主要功能,一是将URL分解为各个部分,二是将URL各个部分拼接成URL,三是将一个相对路径转换成绝对路径。

我们主要用它的第三个功能,使用的函数是

urllib.parse.urljoin(base, url, allow_fragments=True)

3.代码实现例子:

代码:

from urllib import parse

page_url = 'http://fcg.gxepb.gov.cn/ztzl/hjwfbgt/'
new_url = '../
  • 5
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
Python爬虫是用于自动化从网站上抓数据的强大工具,尤其适用于游戏数据的获。在Python,常使用诸如BeautifulSoup、Scrapy、Requests等库来构建爬虫游戏数据通常涉及以下步骤: 1. **目标确定**:明确你想从哪个游戏网站或API获数据,比如Steam、Epic Games Store、GameFAQs等。 2. **分析网页结构**:查看目标网站的HTML结构,理解数据在哪里存储,可能的CSS选择器或XPath路径是什么。 3. **使用requests获页面**:使用requests库发送HTTP请求获网页内容,然后解析HTML(BeautifulSoup或lxml)。 4. **解析数据**:利用BeautifulSoup解析HTML,提你需要的游戏名称、价格、评分、发布时间等信息。 5. **处理数据**:可能需要进行清洗、转换和格式化,以便于存储或进一步分析。 6. **存储数据**:将数据保存到文件、数据库(如SQLite或MySQL)或数据分析工具(如Pandas DataFrame)。 7. **遵守网站规则**:确保你的爬虫行为符合目标网站的robots.txt文件规定,尊重网站的爬虫政策,不要频繁过度请求。 8. **异常处理和错误处理**:编写适当的异常处理代码,以防网络断、服务器错误等情况。 **相关问题--:** 1. BeautifulSoup库在爬虫的作用是什么? 2. Scrapy框架有哪些优点适合用来大量数据? 3. 如果目标网站有反机制,应该如何应对? 4. 如何处理动态加载的内容,如JavaScript生成的数据? 5. 使用Python爬虫时如何保证数据的安全性和隐私性?

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值