Python中的爬虫和数据抓取

原创于 2024-03-03 17:29:22 发布 · 407 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #开发语言 #数据库 #linux #服务器 #大数据

电商api 同时被 2 个专栏收录

523 篇文章

订阅专栏

api

416 篇文章

订阅专栏

本文介绍了如何在Python中使用requests和BeautifulSoup库创建基础爬虫，通过发送HTTP请求、解析HTML内容并抓取指定网页上的数据，如段落文本。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在Python中，爬虫（也称为网络爬虫或网页爬虫）是一种用于从网站上自动抓取数据的程序。这些数据可以是文本、图片、视频或其他任何形式的内容。Python有多种库和工具可以帮助开发者构建爬虫，其中最常用的包括requests、BeautifulSoup、Scrapy等。

以下是一个简单的Python爬虫示例，使用requests和BeautifulSoup库从网页上抓取数据：

import requests  
from bs4 import BeautifulSoup  
  
# 目标网页的URL  
url = 'http://example.com'  
  
# 发送HTTP请求  
response = requests.get(url)  
  
# 检查请求是否成功  
if response.status_code == 200:  
    # 使用BeautifulSoup解析HTML内容  
    soup = BeautifulSoup(response.text, 'html.parser')  
  
    # 选择要抓取的数据，例如所有的段落<p>  
    paragraphs = soup.find_all('p')  
  
    # 遍历段落并打印文本内容  
    for paragraph in paragraphs:  
        print(paragraph.get_text())  
else:  
    print('请求失败，状态码:', response.status_code)