Python爬虫基础教程：从入门到实践

编程的爱好者

已于 2024-08-17 09:28:13 修改

阅读量497

点赞数 16

分类专栏： Python爬虫（每天一更）文章标签： python 爬虫开发语言

于 2024-08-17 09:27:54 首次发布

本文链接：https://blog.csdn.net/sdsdsdd__/article/details/141275698

版权

Python爬虫（每天一更）专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文旨在为读者提供一份关于Python爬虫的全面指南。从爬虫的基本概念、分类、合法性及道德规范讲起，逐步深入到Python环境的搭建、第三方库的安装与管理、开发工具的选择，以及基本库的使用。通过实例讲解，帮助读者掌握使用urllib和requests库进行简单的HTTP请求与响应处理，为Python爬虫学习打下坚实基础。

一、爬虫概述

爬虫的定义：网络爬虫（Web Crawler），是一种按照一定的规则，自动从互联网上抓取信息的程序或脚本。
爬虫的分类：按照抓取范围可分为全网爬虫和聚焦爬虫；按照运行方式可分为批量爬虫和增量爬虫。
爬虫的合法性及道德规范：在进行网络爬虫开发时，应遵守目标网站的robots.txt规定，尊重知识产权，不侵犯个人隐私，不进行数据滥用。

二、Python环境搭建

Python安装：访问Python官方网站下载最新版安装包，根据操作系统指示完成安装。
pip安装和管理第三方库：Python自带pip包管理工具，可使用pip install [库名]命令安装第三方库，pip uninstall [库名]命令卸载库。

三、开发工具选择

推荐使用PyCharm、VS Code等集成开发环境（IDE），它们提供了代码高亮、智能提示、版本控制等功能，有助于提高开发效率。

四、基本库的介绍

urllib库的使用：Python标准库中的urllib模块可用于发送HTTP请求。

示例代码：

python

复制

import urllib.request

response = urllib.request.urlopen('http://www.example.com/')
html = response.read()
print(html)

requests库的使用：requests是一个简洁且简单的HTTP库，相较于urllib更加易用。

示例代码：

python

复制

import requests

response = requests.get('http://www.example.com/')
print(response.text)

五、简单的HTTP请求与响应处理

HTTP请求包括GET和POST两种基本方法，响应则包含状态码、响应头和响应体。

六、实例：爬取一个简单网页的内容

以下是一个使用requests库爬取网页内容的示例：

python

复制

import requests
from bs4 import BeautifulSoup

# 目标网页URL
url = 'http://www.example.com/'

# 发送GET请求
response = requests.get(url)

# 检查请求是否成功
if response.status_code == 200:
    # 使用BeautifulSoup解析HTML
    soup = BeautifulSoup(response.text, 'html.parser')
    # 提取网页中的标题
    title = soup.find('title').text
    print(f'网页标题：{title}')
else:
    print(f'请求失败，状态码：{response.status_code}')

七、解析HTML内容

爬虫的核心任务是解析网页HTML内容，提取所需数据。Python中常用的HTML解析库有BeautifulSoup和lxml。

BeautifulSoup库的使用：BeautifulSoup是一个Python库，用于从HTML或XML文件中提取数据。

示例代码：

python

复制

from bs4 import BeautifulSoup

html = '<html><head><title>Page Title</title></head>'
soup = BeautifulSoup(html, 'html.parser')
print(soup.title.string)

lxml库的使用：lxml是一个HTML解析库，使用libxml2和libxslt库，性能优于BeautifulSoup。

示例代码：

python

复制

from lxml import html

html = '<html><head><title>Page Title</title></head>'
tree = html.fromstring(html)
print(tree.xpath('//title/text()')[0])

八、数据提取

爬虫的另一核心任务是提取网页中的数据。常见的数据提取方法包括XPath、CSS选择器、正则表达式等。

**XPath的使用

from lxml import etree

html = '<html><body><div class="container"><h1>Page Title</h1><p>This is a paragraph.</p></div></body></html>'
tree = html.fromstring(html)
print(tree.xpath('//h1/text()')[0])

CSS选择器的使用：CSS选择器用于选择HTML元素，与XPath类似，但语法更简洁。

示例代码：

python

复制

from bs4 import BeautifulSoup

html = '<html><body><div class="container"><h1>Page Title</h1><p>This is a paragraph.</p></div></body></html>'
soup = BeautifulSoup(html, 'html.parser')
print(soup.select_one('h1').text)

正则表达式的使用：正则表达式是一种强大的文本匹配工具，可用于匹配字符串中的特定模式。

示例代码：

python

复制

import re

text = '<h1>Page Title</h1><p>This is a paragraph.</p>'
pattern = r'<h1>(.*?)</h1>'
match = re.search(pattern, text)
if match:
    print(match.group(1))

九、数据存储

爬取的数据需要进行存储，以便后续分析和处理。Python支持多种数据存储方式，如CSV、JSON、数据库等。

CSV文件的存储：CSV（Comma-Separated Values）文件是一种文本文件，以逗号分隔的值形式存储数据。

示例代码：

python

复制

import csv

data = [
    ('Alice', 25, 'student'),
    ('Bob', 30, 'employee'),
    ('Charlie', 35, 'manager')
]

with open('data.csv', 'w', newline='') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(['Name', 'Age', 'Status'])
    writer.writerows(data)

JSON文件的存储：JSON（JavaScript Object Notation）是一种轻量级的数据交换格式，易于人阅读和编写。

示例代码：

python

复制

import json

data = [
    {'name': 'Alice', 'age': 25, 'status': 'student'},
    {'name': 'Bob', 'age': 30, 'status': 'employee'},
    {'name': 'Charlie', 'age': 35, 'status': 'manager'}
]

with open('data.json', 'w') as jsonfile:
    json.dump(data, jsonfile)

数据库存储：Python支持多种数据库，如MySQL、PostgreSQL、SQLite等。

示例代码：

python

复制

import sqlite3

data = [
    ('Alice', 25, 'student'),
    ('Bob', 30, 'employee'),
    ('Charlie', 35, 'manager')
]

# 连接数据库
conn = sqlite3.connect('data.db')
c = conn.cursor()

# 创建表
c.execute('''CREATE TABLE IF NOT EXISTS users
            (name TEXT, age INTEGER, status TEXT)''')

# 插入数据
for row in data:
    c.execute('INSERT INTO users VALUES (?, ?, ?)', row)

# 提交事务
conn.commit()

# 关闭连接
conn.close()

十、并发爬虫

在实际应用中，为了提高爬虫效率，常常需要同时爬取多个网页。Python提供了多线程、多进程等并发爬虫技术。

多线程爬虫：使用threading模块实现。

示例代码：

python

复制

import threading
import requests
from bs4 import BeautifulSoup

def crawl(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    # 提取数据
    data = extract_data(soup)
    # 存储数据

编程的爱好者

关注

16
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫基础教程：从入门到实践

从爬虫的基本概念、分类、合法性及道德规范讲起，逐步深入到Python环境的搭建、第三方库的安装与管理、开发工具的选择，以及基本库的使用。通过实例讲解，帮助读者掌握使用urllib和requests库进行简单的HTTP请求与响应处理，为Python爬虫学习打下坚实基础。推荐使用PyCharm、VS Code等集成开发环境（IDE），它们提供了代码高亮、智能提示、版本控制等功能，有助于提高开发效率。：在进行网络爬虫开发时，应遵守目标网站的robots.txt规定，尊重知识产权，不侵犯个人隐私，不进行数据滥用。
复制链接

扫一扫