python爬虫流程

最新推荐文章于 2025-06-09 09:57:28 发布

larrybbb

最新推荐文章于 2025-06-09 09:57:28 发布

阅读量518

点赞数

CC 4.0 BY-SA版权

分类专栏：爬虫文章标签： python爬虫

本文链接：https://blog.csdn.net/larrybbb/article/details/86536883

爬虫专栏收录该内容

3 篇文章

订阅专栏

本文总结了Python爬虫的基本流程，包括数据采集、解析、整理和保存四个步骤。在采集阶段，介绍了使用urllib和requests库进行HTTP请求的方法。解析阶段提到了BeautifulSoup结合正则表达式进行网页内容提取。数据整理环节，提到了字符串处理如strip方法。最后，根据实际需求，可以选择将数据保存至数据库或文件。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

总结：
爬虫流程：数据采集—>数据解析—>数据整理—>数据保存
1.采集：urllib2(python3.3之后的urllib2改为urllib.request) 或者requests

urllib请求的get方式

import urllib.request
	response = urllib.request.urlopen('http://www.baidu.com')
    print(response.read().decode('utf-8')) 
    # getcode() 返回响应状态码    geturl() 返回资源所在的url      info() 返回响应头信息

urllib请求的post方式

import urllib.request
	request = urllib.request.Request(url)             #创建Request对象
	request.add_data('a','1')                         #添加数据
	request.add_header("User-Agent","Mozilla/5.0")    #添加http的header  
	response = urllib.request.urlopen(request)         #请求 request 得到 response
	# head= {"User-Agent","Mozilla/5.0"}
	# request= urllib.request.Request(url，headers = head)
	# response = urllib.request.urlopen(request)
	# print(response.read().decode('utf-8'))

requests请求的get方式

import  requests
response = requests.get('http://httpbin.org/get')   #无参的
# 带参数的get方式  
# response = requests.get("http://httpbin.org/get?name=germey&age=22")
#  或者  data = {
	   				'name': 'germey',
	  				'age': 22}            
# response = requests.get("http://httpbin.org/get",params = data)          
print(response.text)

2. 解析: BeautifulSoup + 正则
BeautifulSoup

 from bs4 import BeautifulSoup
	   res = requests.get(url)
	   soup = BeautifulSoup(res.text, 'lxml')
	   soup.select()                                     # id class标签等

正则：