python爬虫简单介绍

最新推荐文章于 2024-06-16 10:55:10 发布

熙尛

最新推荐文章于 2024-06-16 10:55:10 发布

阅读量1k

点赞数 23

文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/mj256115/article/details/139162443

版权

Python作为一种流行的编程语言，因其简洁、易学和强大的库支持，成为编写爬虫的首选语言之一。下面是Python爬虫的详细介绍，包括其组成部分、常用库以及基本的爬虫流程。

Python爬虫组成部分：

请求发送器：负责发送网络请求，获取网页内容。
内容解析器：解析获取到的网页内容，提取有用信息。
数据存储器：将提取的数据存储到数据库或文件中。
异常处理：处理请求过程中可能出现的各种异常情况。
用户代理（User-Agent）：模拟浏览器访问，避免被网站识别为爬虫。
爬虫调度器：负责管理爬虫的运行，如设置爬取间隔、重试机制等。

常用Python库：

Requests：用于发送HTTP请求，获取网页内容。
BeautifulSoup 或 lxml：用于解析HTML/XML文档，提取所需数据。
Scrapy：一个强大的爬虫框架，提供完善的爬虫解决方案。
Selenium：用于模拟浏览器操作，可以处理JavaScript渲染的页面。
Pandas：数据分析库，可以方便地处理和存储数据。
SQLAlchemy：数据库ORM工具，简化数据库操作。
PyQuery：类似于jQuery的库，简化HTML文档的查询和操作。

基本爬虫流程：

确定目标网站：明确需要爬取的网站和数据。
分析网页结构：使用浏览器的开发者工具分析网页结构，确定数据所在位置。
编写爬虫代码：使用Python及其库编写爬虫程序，实现数据的请求、解析和存储。
设置爬虫规则：遵守robots.txt协议，设置合理的请求间隔，避免给网站服务器造成过大压力。
异常处理：编写异常处理代码，确保爬虫的稳定性。
测试和调试：在开发过程中不断测试和调试，确保爬虫的正确运行。
数据清洗和存储：对爬取的数据进行清洗，然后存储到数据库或文件中。

示例代码：

import requests
from bs4 import BeautifulSoup

# 发送HTTP请求
response = requests.get('http://example.com')

# 解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')

# 提取数据
data = soup.find_all('a')  # 假设我们想提取所有的链接

# 打印数据
for link in data:
    print(link.get('href'))

注意事项：

遵守法律法规：在编写爬虫时，需要遵守相关法律法规，不侵犯版权和隐私。
尊重网站政策：遵循目标网站的robots.txt文件，尊重网站的爬虫政策。
数据安全：确保爬取的数据安全，不用于非法用途。

要爬取网站上的所有图片，可以使用Python的requests库来发送HTTP请求，然后使用BeautifulSoup库来解析HTML内容并提取图片链接。以下是一个简单的示例代码，展示了如何爬取一个示例网页上的所有图片链接：

import requests
from bs4 import BeautifulSoup
import os

# 确保这个目录存在，如果不存在则创建
if not os.path.exists('images'):
    os.makedirs('images')

# 目标网站的URL
url = 'http://example.com'

# 发送HTTP GET请求
response = requests.get(url)

# 确保请求成功
if response.status_code == 200:
    # 使用BeautifulSoup解析HTML内容
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # 查找所有的<img>标签
    img_tags = soup.find_all('img')
    
    # 遍历所有的<img>标签
    for img_tag in img_tags:
        # 获取图片的URL
        img_url = img_tag.get('src')
        
        # 检查图片URL是否是绝对路径，如果不是则转换为绝对路径
        if not img_url.startswith('http'):
            img_url = url + img_url
        
        # 发送请求下载图片
        img_response = requests.get(img_url)
        
        # 如果图片请求成功
        if img_response.status_code == 200:
            # 为图片生成文件名
            img_name = os.path.join('images', img_url.split('/')[-1])
            
            # 打开文件并写入内容
            with open(img_name, 'wb') as f:
                f.write(img_response.content)
            print(f'图片已保存：{img_name}')
else:
    print('请求失败，状态码：', response.status_code)

请注意以下几点：

这个示例代码假设所有的图片都通过<img>标签的src属性链接。有些网站可能使用其他方式嵌入图片，如CSS背景、JavaScript动态加载等，这些情况需要其他方法来处理。
代码中使用了os.makedirs来创建一个名为images的目录，用于保存下载的图片。
为了确保图片URL是完整的，如果src属性不是以http开头，代码会将其转换为绝对路径。
代码中使用了简单的错误处理，只检查了HTTP请求的状态码是否为200。
请确保遵守目标网站的robots.txt文件，并尊重版权和隐私。

在实际应用中，可能需要根据目标网站的具体情况调整代码，例如处理分页、登录、Ajax动态加载的内容等。此外，对于大型网站，建议使用更高级的爬虫框架如Scrapy，并考虑使用异步请求来提高爬取效率。

使用异步请求可以显著提高爬虫的效率，特别是在处理大量HTTP请求时。Python的aiohttp库是一个支持异步请求的HTTP客户端，可以与asyncio库一起使用来编写异步爬虫。以下是使用aiohttp和asyncio爬取网站上所有图片的示例代码：

import aiohttp
import asyncio
from bs4 import BeautifulSoup
import os

# 确保存储图片的目录存在
if not os.path.exists('images'):
    os.makedirs('images')

async def download_image(session, url, filename):
    async with session.get(url) as response:
        if response.status == 200:
            with open(filename, 'wb') as f:
                while True:
                    chunk = await response.content.read(1024)
                    if not chunk:
                        break
                    f.write(chunk)
            print(f'图片已保存：{filename}')

async def fetch_images(url):
    async with aiohttp.ClientSession() as session:
        async with session.get(url) as response:
            if response.status == 200:
                soup = BeautifulSoup(await response.text(), 'html.parser')
                img_tags = soup.find_all('img')
                images = [img.get('src') for img in img_tags]
                # 过滤出绝对路径的图片URL
                images = [url + img if not img.startswith('http') else img for img in images]
                # 并发下载图片
                tasks = [download_image(session, img, os.path.join('images', img.split('/')[-1])) for img in images]
                await asyncio.gather(*tasks)

# 目标网站的URL
url = 'http://example.com'

# 启动异步爬虫
loop = asyncio.get_event_loop()
loop.run_until_complete(fetch_images(url))