豆瓣python网络数据采集器_python网络数据采集笔记（一）

最新推荐文章于 2024-04-30 13:30:30 发布

weixin_39690972

最新推荐文章于 2024-04-30 13:30:30 发布

阅读量130

点赞数

文章标签：豆瓣python网络数据采集器

注意：

1.为了避免一个页面被采集两次，链接去重是非常重要的。

2.写代码之前拟个大纲或画个流程图是很好的编程习惯，这么做不仅可以为你后期处理节省

很多时间，更重要的是可以防止自己在爬虫变得越来越复杂时乱了分寸。

3.处理网页重定向

•服务器端重定向，网页在加载之前先改变了 URL；

• 客户端重定向，有时你会在网页上看到“10 秒钟后页面自动跳转到……”之类的消息，

表示在跳转到新 URL 之前网页需要加载内容。

服务器端重定向，你通常不用担心。如果你在用 Python 3.x 版本的 urllib 库，它会自

动处理重定向。不过要注意，有时候你要采集的页面的 URL 可能并不是你当前所在页

面的 URL。

fromurllib.request import urlopenfrombs4 import BeautifulSoup

import re

import datetime

import random

pages= set()

#随机数种子

random.seed(datetime.datetime.now())

#获取页面所有内链的列表

def getInternalLinks(bsObj, includeurl):

internalLinks=[]

#匹配以/开头的字符串，或匹配包括includeurl的字符串，+表示字符串拼接。for link in bsObj.find_all("a", href=re.compile("^(/|.*" +includeurl+")")):

#for link in bsObj.find_all("a", href=re.compile("^(.*" + includeurl + ")")):if link.attrs['href'] isnot None:if link.attrs['href'] not ininternalLinks:

internalLinks.append(link.attrs['href'])returninternalLinks

#获取页面内所有外链的列表

def getExternalLinks(bsObj, excludeurl):

externalLinks=[]

# 找出所有以"http"或"www"开头且不包含当前URL的链接for link in bsObj.find_all("a", href=re.compile("^(http|www)((?!" +excludeurl+").)*$")):if link.attrs['href'] isnot None:if link.attrs['href'] not inexternalLinks:

externalLinks.append(link.attrs['href'])returnexternalLinks

#URL链接切片，为了获得域名

def splitAddress(adress):

adressParts= adress.replace("http://", "").split("/")returnadressParts

#于外链列表中随机选取一条外链

def getRandomExternalLink(startingpage):

html=urlopen(startingpage)

bsObj= BeautifulSoup(html, "lxml")

externalLinks=getExternalLinks(bsObj, startingpage)if len(externalLinks) == 0:

internalLinks=getInternalLinks(startingpage)return getExternalLinks(internalLinks[random.randint(0, len(internalLinks)-1)])else:return externalLinks[random.randint(0, len(externalLinks)-1)]

#外链跳转，从一条外链跳转到另一条

def followExternalOnly(siteurl):

externalLink=getRandomExternalLink(siteurl)

print("随机外链：", externalLink)

followExternalOnly(externalLink)

#收集网站内所有外链列表

allExtLinks= set()

allIntLinks= set()

def getAllExternalLinks(siteurl):

html=urlopen(siteurl)

bsObj= BeautifulSoup(html, "lxml")

internalLinks= getInternalLinks(bsObj, splitAddress(siteurl)[0])

externalLinks= getExternalLinks(bsObj, splitAddress(siteurl)[0])for link inexternalLinks:if link not inallExtLinks:

allExtLinks.add(link)

print(link)for link ininternalLinks:if link not inallIntLinks:

allIntLinks.add(link)

print("即将获取链接的URL是："+link)

getAllExternalLinks(link)

#从互联网采集，从一个外链跳转到另一个外链

#followExternalOnly("http://oreilly.com")

#获取网站所有外链

getAllExternalLinks("http://oreilly.com")

说明：以上代码可以执行两个功能。仅运行followExternalOnly("http://oreilly.com")是从互联网采集，从一个外链跳转到另一个外链。

仅运行getAllExternalLinks("http://oreilly.com")可以获取网站所有外链。

说一下运行getAllExternalLinks("http://oreilly.com")遇到的问题，发生raise ValueError("unknown url type: %r" % self.full_url)，ValueError: unknown url type: '/oscon/oscon-or/schedule'

是不是问题出现在获取页面所有内链函数getInternalLinks（）的for link in bsObj.find_all("a", href=re.compile("^(/|.*" +includeurl+")")):的部分。为何要匹配以/开头的URL？

不懂，留待以后解决吧。。。希望我别忘了。。。

备注：

BeautifulSoup的find()和find_all()

BeautifulSoup里的find()和find_all()可能是你最常用的两个函数。借助它们，你可以通过标签的不同属性轻松地过滤HTML页面,查找需要的标签组或单个标签。

find()函数语法：

find( name , attrs , recursive , string , **kwargs )

find_all()函数语法：

find_all( name , attrs , recursive , string , **kwargs )

搜索当前tag的所有tag子节点,并判断是否符合过滤器的条件。

name参数可以查找所有名字为name的tag,字符串对象会被自动忽略掉。搜索 name参数的值可以使任一类型的过滤器,字符串,正则表达式,列表,方法等。

attrs参数定义一个字典参数来搜索包含特殊属性的tag。

通过string参数可以搜搜文档中的字符串内容,与name参数的可选值一样。

keyword参数：如果一个指定名字的参数不是搜索内置的参数名,搜索时会把该参数当作指定名字tag的属性来搜索。

find_all()方法返回全部的搜索结构,如果文档树很大那么搜索会很慢。如果我们不需要全部结果,可以使用 limit参数限制返回结果的数量.效果与SQL中的limit关键字类似,当搜索到的结果数量达到limit的限制时,就停止搜索返回结果。

find 等价于 find_all 的 limit 等于 1 ;

调用tag的 find_all()方法时,Beautiful Soup会检索当前tag的所有子孙节点,如果只想搜索tag的直接子节点,可以使用参数 recursive=False。

其他BeautifulSoup对象

NavigableString对象：表示标签里面的文字；

Comment对象：用来查找HTML文档的注释标签。

weixin_39690972

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫