python爬虫爬取多个页面_Python 3 爬虫学习笔记 3 开始爬取多个页面或者一个站点...

此学习笔记整理于 Ryan Mitchell Web Scraping with Python- Collecting Data from the Modern Web (2015) Chapter 3 Starting to crawl

一,随机跳转

随机跳转

首先,说下函数定义的过程。

def 函数名(参数)

函数内容代码

return XX #函数返回什么

我们来看这个函数,名称getLinks,参数是articleUrl。

函数内容代码:首先打开这个网址(两个文本合起来的)

bs美化下,找到div tag,然后id属性是bodyContent。在此基础上,再找到所有的,a tag(有链接的tag),然后是关键词href应该等于什么?re.compile是正则表达式,后面看:(/wiki/)这样的形式,(我也不知道为啥/没有用\来表示其本义,可能是加了括号吧,理解就好,(\/wiki\/)也可以的),括号前加了^,表示以括号内的内容开头,然后是(?!:)表示不包括:,((?!:).) 至少有一个字符,然后是*,表示重复若干次,$表示结尾(从头到尾不包括:)。

这里的筛选是作者发现的一些rules需要遵守,爬虫来筛选我们需要的内容是总是需要不同的rules来筛选。

random.seed(datetime.datetime.now()) 表示选择随机生成数的seed也来一下随机,表示随机即可。

作者给了一个初始页面 “/wiki/Kevin_

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值