python爬虫流程

本文总结了Python爬虫的基本流程,包括数据采集、解析、整理和保存四个步骤。在采集阶段,介绍了使用urllib和requests库进行HTTP请求的方法。解析阶段提到了BeautifulSoup结合正则表达式进行网页内容提取。数据整理环节,提到了字符串处理如strip方法。最后,根据实际需求,可以选择将数据保存至数据库或文件。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

总结:
爬虫流程:数据采集—>数据解析—>数据整理—>数据保存
1.采集urllib2(python3.3之后的urllib2改为urllib.request) 或者requests

urllib请求的get方式

import urllib.request
	response = urllib.request.urlopen('http://www.baidu.com')
    print(response.read().decode('utf-8')) 
    # getcode() 返回响应状态码    geturl() 返回资源所在的url      info() 返回响应头信息

urllib请求的post方式

import urllib.request
	request = urllib.request.Request(url)             #创建Request对象
	request.add_data('a','1')                         #添加数据
	request.add_header("User-Agent","Mozilla/5.0")    #添加http的header  
	response = urllib.request.urlopen(request)         #请求 request 得到 response
	# head= {"User-Agent","Mozilla/5.0"}
	# request= urllib.request.Request(url,headers = head)
	# response = urllib.request.urlopen(request)
	# print(response.read().decode('utf-8'))

requests请求的get方式

import  requests
response = requests.get('http://httpbin.org/get')   #无参的
# 带参数的get方式  
# response = requests.get("http://httpbin.org/get?name=germey&age=22")
#  或者  data = {
	   				'name': 'germey',
	  				'age': 22}            
# response = requests.get("http://httpbin.org/get",params = data)          
print(response.text) 

2. 解析: BeautifulSoup + 正则
BeautifulSoup

 from bs4 import BeautifulSoup
	   res = requests.get(url)
	   soup = BeautifulSoup(res.text, 'lxml')
	   soup.select()                                     # id class标签等

正则:

 import re  
    re.match()
    ...

3.整理
一般爬下来的数据是字符串,你需要对字符串进行一系列处理。比如,str.strip()

4.保存

数据库,文件看自己需求

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值