Python爬虫教程第一篇

最新推荐文章于 2024-09-15 22:31:42 发布

shiming8879

最新推荐文章于 2024-09-15 22:31:42 发布

阅读量972

点赞数 12

文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/shiming8879/article/details/140399645

版权

一、爬虫基础概念

1. 什么是爬虫

爬虫（Spider，又称网络爬虫），是指向网站/网络发起请求，获取资源后分析并提取有用数据的程序。从技术层面来说，爬虫通过程序模拟浏览器请求站点的行为，把站点返回的HTML代码、JSON数据、二进制数据（如图片、视频）等爬到本地，进而提取自己需要的数据，存放起来使用。

2. 爬虫的分类

传统爬虫：从一个或若干个初始网页的URL开始，抓取网页时不断从当前页面上抽取新的URL放入队列，直到满足系统的一定条件才停止。
聚焦爬虫：根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入待抓取的URL队列，再根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程。

二、爬虫基本流程

爬虫的基本流程通常包括以下几个步骤：

发起请求：使用HTTP库（如requests、urllib等）向目标站点发起请求，即发送一个Request。请求可以包含额外的headers等信息，以模拟浏览器行为。
获取响应内容：如果服务器能正常响应，会得到一个Response。Response的内容便是所要获取的页面内容，类型可能有HTML、JSON字符串、二进制数据等。
解析内容：对获取到的内容进行解析，提取出需要的数据。解析HTML数据可以使用正则表达式、XPath、Beautiful Soup等工具；解析JSON数据则可以直接使用Python的json模块。
保存数据：将解析出的数据存储到本地文件或数据库中，以便后续使用。

三、入门实践案例

以下是一个简单的Python爬虫入门实践案例，用于爬取某个网页上的数据：

import requests
from bs4 import BeautifulSoup

def fetch_data(url):
    # 发起请求
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
    }
    response = requests.get(url, headers=headers)
    
    # 检查响应状态码
    if response.status_code == 200:
        # 解析内容
        soup = BeautifulSoup(response.text, 'html.parser')
        # 假设我们要提取页面上的所有链接
        links = [a['href'] for a in soup.find_all('a', href=True)]
        return links
    else:
        return []

# 使用函数
url = 'http://example.com'  # 替换为目标网页的URL
links = fetch_data(url)
print(links)