python爬虫(一)

最新推荐文章于 2024-05-20 22:54:06 发布

暮-夜染

最新推荐文章于 2024-05-20 22:54:06 发布

阅读量476

点赞数 3

分类专栏： python爬虫文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/qq_74259765/article/details/131077740

版权

python爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

前言

python爬虫优势: PHP、Java、C/C++ 都可以用来写爬虫程序，但是相比较而言
Python语言拥有简单易学的语法、强大的外部库、高效的性能等特点，使得其成为创建高效可靠的爬虫应用程序的理想选择.

一.爬虫简介

1.1.Python爬虫

是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，可以模拟人类在互联网上的行为，从网页中提取数据并将其存储在本地或远程服务器上。Python爬虫通常使用第三方库（如BeautifulSoup、Scrapy、Requests等）来实现网页解析和数据提取。
爬虫可以用于各种用途，例如数据挖掘、搜索引擎优化、竞争情报、价格比较等。

以下是一个简单的Python爬虫示例，它使用Requests库从网页中提取数据：

import requests
from bs4 import BeautifulSoup

url = 'https://www.baidu.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
links = soup.find_all('a')
for link in links:
    print(link.get('href'))

这个示例使用Requests库向百度网页发送HTTP请求并获取响应，然后使用BeautifulSoup库解析HTML并提取所有链接。这只是Python爬虫的一个简单示例，实际上，爬虫可以执行更复杂的任务，例如登录网站、模拟用户行为、处理JavaScript等。

1.2.robots协议：

robots协议是一种标准，用于指导网络爬虫如何访问网站。“约定俗称”的协议，并不具备法律效力，该协议规定了哪些页面可以被爬虫访问，哪些页面不应该被访问，以及爬虫在访问网站时应该遵守哪些规则。这些规则包括爬虫访问网站的频率、访问页面的数量、访问页面的时间等。

如果一个爬虫不遵守robots协议，它可能会被网站管理员视为恶意爬虫，并被禁止访问网站。
此外，如果一个爬虫过于频繁地访问网站，它可能会对网站的性能产生负面影响，从而影响其他用户的访问体验。
因此，网络爬虫都应该遵守robots协议，以确保它们的访问行为合法、合理、安全。

二.爬虫分类

网络爬虫可以根据其目的、实现方式、数据处理方式等多个方面进行分类。大致可分为：通用网络爬虫，垂直网络爬虫，增量式网络爬虫，分布式网络爬虫，深度网络爬虫和搜索引擎爬虫。

2.1. 通用网络爬虫：

这种爬虫可以自动地从互联网上抓取各种类型的网页，并提取其中的信息。通用网络爬虫通常使用广度优先搜索算法来遍历网页，并使用正则表达式或HTML解析器来提取数据。

   Googlebot是一个著名的通用网络爬虫和搜索引擎爬虫，它可以从互联网上抓取各种类型的网页，并提取其中的信息。

2.2. 垂直网络爬虫：

这种爬虫专门针对某个特定领域的网站进行抓取，例如新闻网站、电商网站等。垂直网络爬虫通常使用深度优先搜索算法来遍历网页，并使用特定的数据处理方式来提取数据。

Amazon的爬虫可以针对其电商网站进行抓取，以提取商品信息和价格等数据。

2.3 增量式网络爬虫：

这种爬虫可以自动地监测网站的更新，并只抓取更新的部分。增量式网络爬虫通常使用哈希算法或时间戳来判断网页是否更新。

例如：Feedly是一个RSS阅读器，它可以自动地监测网站的更新，并只抓取更新的部分。

2.4 .分布式网络爬虫：

这种爬虫可以同时在多台计算机上运行，以提高抓取效率。分布式网络爬虫通常使用消息队列或分布式数据库来协调不同节点之间的任务分配和数据传输。

 ：Apache Nutch是一个开源的分布式网络爬虫，它可以同时在多台计算机上运行，以提高抓取效率。

2.5 深度网络爬虫：

这种爬虫可以自动地模拟用户的行为，例如点击链接、填写表单等，以抓取动态生成的网页。深度网络爬虫通常使用JavaScript解析器来处理动态网页。

 Selenium是一个流行的深度网络爬虫工具，它可以自动地模拟用户的行为，以抓取动态生成的网页。

2.6.搜索引擎爬虫：

这种爬虫是搜索引擎的核心组成部分，用于抓取互联网上的网页，并建立索引以供搜索。搜索引擎爬虫通常使用广度优先搜索算法来遍历网页，并使用特定的算法来计算网页的权重和相关性。

三.爬虫构造

Python爬虫通常由以下几个部分构成：

网络请求模块: 用于向目标网站发送请求，获取网页数据。常用的网络请求模块有requests、urllib等。
解析模块(网页解析器)：用于解析已经下载下来的网页，提取需要的信息。常见的解析器有正则表达式、html.parser、lxml库和BeautifulSoup模块等。
存储模块：用于将爬取到的数据存储到本地或数据库中。常见的数据存储方式有文件存储、数据库存储等,常用的存储模块有csv、json、MySQLdb等。
反爬虫模块：用于应对目标网站的反爬虫机制，常用的反爬虫模块有selenium、pyppeteer等。
日志模块：用于记录爬虫运行过程中的日志信息，方便调试和排错。常用的日志模块有logging等。
其他模块：根据具体需求，还可以使用其他模块，如验证码识别模块、代理池模块等。

以上模块可以根据具体需求进行组合和调整，构建出适合自己的Python爬虫。

import requests
from bs4 import BeautifulSoup

# URL管理器
url_list = ['http://www.example.com/page{}'.format(i) for i in range(1, 11)]
visited_list = set()

# 网页下载器
def download(url):
    response = requests.get(url)
    content = response.content
    return content

# 网页解析器
def parse(content):
    soup = BeautifulSoup(content, 'html.parser')
    title = soup.title.string
    return title

# 数据存储器
def save(data):
    with open('titles.txt', 'a', encoding='utf-8') as f:
        f.write(data + '\n')

# 爬虫主函数
def spider():
    while url_list:
        url = url_list.pop(0)
        visited_list.add(url)
        content = download(url)
        title = parse(content)
        save(title)
        print('Visited {} URLs'.format(len(visited_list)))

if __name__ == '__main__':
    spider()