python爬取网页上的特定链接_python通过链接抓取网站详解

最新推荐文章于 2022-11-22 15:48:12 发布

weixin_39686192

最新推荐文章于 2022-11-22 15:48:12 发布

阅读量931

点赞数

文章标签： python爬取网页上的特定链接

在本篇文章里，你将会学习把这些基本方法融合到一个更灵活的网站爬虫中，该爬虫可以跟踪任意遵循特定 URL 模式的链接。

这种爬虫非常适用于从一个网站抓取所有数据的项目，而不适用于从特定搜索结果或页面列表抓取数据的项目。它还非常适用于网站页面组织得很糟糕或者非常分散的情况。

这些类型的爬虫并不需要像上一节通过搜索页面进行抓取中采用的定位链接的结构化方法，因此在 Website 对象中不需要包含描述搜索页面的属性。但是由于爬虫并不知道待寻找的链接的位置，所以你需要一些规则来告诉它选择哪种页面。你可以用 targetPattern(目标 URL 的正则表达式）和布尔变量 absoluteUrl 来达成这一目标：

class Website:

def __init__(self,name,url,targetPattern,absoluteUrl,titleTag,bodyTag):

self.name = name

self.url = url

self.targetPattern = targetPattern

self.absoluteUrl=absoluteUrl

self.titleTag = titleTag

self.bodyTag = bodyTag

class Content:

def __init__(self,title,body):

self.url = url

self.title = title

self.body = body

def print(self):

print("URL: {}".format(self.url))

print("TITLE: {}".format(self.title))

print("BOD

最低0.47元/天解锁文章

weixin_39686192

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬取网页上的特定链接_python通过链接抓取网站详解

在本篇文章里，你将会学习把这些基本方法融合到一个更灵活的网站爬虫中，该爬虫可以跟踪任意遵循特定 URL 模式的链接。这种爬虫非常适用于从一个网站抓取所有数据的项目，而不适用于从特定搜索结果或页面列表抓取数据的项目。它还非常适用于网站页面组织得很糟糕或者非常分散的情况。这些类型的爬虫并不需要像上一节通过搜索页面进行抓取中采用的定位链接的结构化方法，因此在 Website 对象中不需要包含描述...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。