此学习笔记整理于 Ryan Mitchell Web Scraping with Python- Collecting Data from the Modern Web (2015) Chapter 3 Starting to crawl
一,随机跳转
随机跳转
首先,说下函数定义的过程。
def 函数名(参数)
函数内容代码
return XX #函数返回什么
我们来看这个函数,名称getLinks,参数是articleUrl。
函数内容代码:首先打开这个网址(两个文本合起来的)
bs美化下,找到div tag,然后id属性是bodyContent。在此基础上,再找到所有的,a tag(有链接的tag),然后是关键词href应该等于什么?re.compile是正则表达式,后面看:(/wiki/)这样的形式,(我也不知道为啥/没有用\来表示其本义,可能是加了括号吧,理解就好,(\/wiki\/)也可以的),括号前加了^,表示以括号内的内容开头,然后是(?!:)表示不包括:,((?!:).) 至少有一个字符,然后是*,表示重复若干次,$表示结尾(从头到尾不包括:)。
这里的筛选是作者发现的一些rules需要遵守,爬虫来筛选我们需要的内容是总是需要不同的rules来筛选。
random.seed(datetime.datetime.now()) 表示选择随机生成数的seed也来一下随机,表示随机即可。
作者给了一个初始页面 “/wiki/Kevin_