在Python中,爬虫(也称为网络爬虫或网页爬虫)是一种用于从网站上自动抓取数据的程序。这些数据可以是文本、图片、视频或其他任何形式的内容。Python有多种库和工具可以帮助开发者构建爬虫,其中最常用的包括requests
、BeautifulSoup
、Scrapy
等。
以下是一个简单的Python爬虫示例,使用requests
和BeautifulSoup
库从网页上抓取数据:
import requests
from bs4 import BeautifulSoup
# 目标网页的URL
url = 'http://example.com'
# 发送HTTP请求
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 使用BeautifulSoup解析HTML内容
soup = BeautifulSoup(response.text, 'html.parser')
# 选择要抓取的数据,例如所有的段落<p>
paragraphs = soup.find_all('p')
# 遍历段落并打印文本内容
for paragraph in paragraphs:
print(paragraph.get_text())
else:
print('请求失败,状态码:', response.status_code)