python爬虫流程

总结:爬虫流程:数据采集—>数据解析—>数据整理—>数据保存1.采集:urllib2(python3.3之后的urllib2改为urllib.request) 或者requestsurllib请求的get方式import urllib.request response = urllib.request.urlopen('http://www.baidu.com') ...
摘要由CSDN通过智能技术生成

总结:
爬虫流程:数据采集—>数据解析—>数据整理—>数据保存
1.采集urllib2(python3.3之后的urllib2改为urllib.request) 或者requests

urllib请求的get方式

import urllib.request
	response = urllib.request.urlopen('http://www.baidu.com')
    print(response.read().decode('utf-8')) 
    # getcode() 返回响应状态码    geturl() 返回资源所在的url      info() 返回响应头信息

urllib请求的post方式

import urllib.request
	request = urllib.request.Request(url)             #创建Request对象
	request.add_data('a','1')                         #添加数据
	request.add_header("User-Agent","Mozilla/5.0")    #添加http的header  
	response = urllib.request.urlopen(request)         #请求 request 得到 response
	# head= {"User-Agent","Mozilla/5.0"}
	# request= urllib.request.Request(url,headers = head)
	# response = urllib.request.urlopen(request)
	# print(response.read().decode('utf-8'))

requests请求的get方式

import  requests
response = requests.get('http://httpbin.org/get')   #无参的
# 带参数的get方式  
# response = requests.get("http://httpbin.org/get?name=germey&age=22")
#  或者  data = {
	   				'name': 'germey',
	  				'age': 22}            
# response = requests.get("http://httpbin.org/get",params = data)          
print(response.text) 

2. 解析: BeautifulSoup + 正则
BeautifulSoup

 from bs4 import BeautifulSoup
	   res = requests.get(url)
	   soup = BeautifulSoup(res.text, 'lxml')
	   soup.select()                                     # id class标签等

正则:

 import re  
    re.match()
    ...

3.整理
一般爬下来的数据是字符串,你需要对字符串进行一系列处理。比如,str.strip()

4.保存

数据库,文件看自己需求

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值