python3爬虫例子_Python爬虫解析实战例子

最新推荐文章于 2025-02-07 17:31:06 发布

weixin_39928102

最新推荐文章于 2025-02-07 17:31:06 发布

阅读量341

点赞数

文章标签： python3爬虫例子

本文详细介绍了网络爬虫的基本概念、工作原理，并通过一个实际的Python爬虫例子，演示了从确定目标、分析目标到编写代码、执行爬虫的完整过程。在实例中，爬虫用于抓取百度百科Python词条及其相关词条的标题和简介。文章还涉及到URL管理、HTML下载、解析器和输出器等关键组件，以及requests和BeautifulSoup库的使用。最后，给出了一个爬取图片网站MeiziTu的代码示例，展示了如何下载并保存图片。

摘要由CSDN通过智能技术生成

一、什么是爬虫:

爬虫，即网络爬虫，大家可以理解为在网络上爬行的一直蜘蛛，互联网就比作一张大网，而爬虫便是在这张网上爬来爬去的蜘蛛咯，如果它遇到资源，那么它就会抓取下来。想抓取什么？这个由你来控制它咯。

比如它在抓取一个网页，在这个网中他发现了一条道路，其实就是指向网页的超链接，那么它就可以爬到另一张网上来获取数据。这样，整个连在一起的大网对这之蜘蛛来说触手可及，分分钟爬下来不是事儿。

二、基本总调度程序:

爬虫总调度程序会使用 url 管理器、 html 下载器、解析器、输出器；简单爬虫架构：爬虫调度端，监视运行情况，URL管理器（待、已爬）->网页下载器（下载URL指定的，保存成字符串）->网页解析器（一方面抓取有价值数据，一方面补充进URL管理器中新的URL）

三、开发爬虫实例:

一、步骤

1、确定目标：确定抓取哪个网站的哪些网页的哪部分数据。本实例确定抓取百度百科python词条页面以及它相关的词条页面的标题和简介。

2、分析目标：确定抓取数据的策略。一是分析要抓取的目标页面的URL格式，用来限定要抓取的页面的范围；二是分析要抓取的数据的格式，在本实例中就是要分析每一个词条页面中标题和简介所在的标签的格式；三是分析页面的编码，在网页解析器中指定网页编码，才能正确解析。

3、编写代码：在解析器中会使用到分析目标步骤所得到的抓取策略的结果。

4、执行爬虫。

四、开始使用爬虫程序

1、URL解析器：

管理将要抓取的和已经抓取过的url

2、Html下载器

urllib2，requests：

3、解析器

网页解析器：是从网页提取有价值的数据将网页下载器获取的Hmlt字符串解析出有价值数据和新的URL，使用最多的解析器有beautifulsoup，

4、输出器

以下为抓取meizit的爬虫实例：

import requests ##导入requests

from bs4 import BeautifulSoup ##导入bs4中的BeautifulSoup

import os

headers = {'User-Agent':"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"}##浏览器请求头（大部分网站没有这个请求头会报错、请务必加上哦）

all_url = 'http://www.mzitu.com/all' ##开始的URL地址

start_html = requests.get(all_url, headers=headers) ##使用requests中的get方法来获取all_url(就是：http://www.mzitu.com/all这个地址)的内容 headers为上面设置的请求头、请务必参考requests官方文档解释

Soup = BeautifulSoup(start_html.text, 'lxml') ##使用BeautifulSoup来解析我们获取到的网页（‘lxml’是指定的解析器具体请参考官方文档哦）

all_a = Soup.find('div', class_='all').find_all('a') ##意思是先查找 class为 all 的div标签，然后查找所有的标签。

for a in all_a:

title = a.get_text() #取出a标签的文本

path = str(title).strip() ##去掉空格

os.makedirs(os.path.join("D:\mzitu", path)) ##创建一个存放套图的文件夹

os.chdir("D:\mzitu\\"+path) ##切换到上面创建的文件夹

print(u'当前的文件夹为',path)

if not path:

print('爬取完毕！')

break

href = a['href'] #取出a标签的href 属性