python 爬虫学习入门, 数据分析 正则表达式

数据分析

当我们获取到网页的内容之后,我们需要对信息进行进一步的提取,数据提取的话有很多中提取方式,简单的提3个,正则表达式,xpath,和bs4,这几个都可以帮助我们提取到有用的信息,因为目前看到了正则表达式,我就根据正则表达式来大致的写一下提取的过程,以及我提取过程中所遇到的问题

正则表达式

有关正则表达式的相关用法还需要自己去找视频学,在这里就简单的说一下我在数据分析时候遇到的问题, 后期会在这里不断补充

python 正则表达式用法

import re 
import requests


# 获取url 取得数据
def get(url):
	# 添加头部信息
	headers = {
		'User-agent': '123'
	}
	proxies = {
		'http': '192.123.123.123:8080'
	}
	resp = resquests.get(url, headers=headers, proxies=proxies)
	data = resp.content.decode('utf-8')


def parse(html)
	# 用正则表达式对其进行解析
	pattern = re.compile('这里为正则表达式的规则')
	result = pattern.findall(html)
	# 在这里会根据你的正则式获取到你想要的信息,
	# 这个信息的存储方式是一个列表,
	# 要对数据进行分组后会方便提取数据

遇到的问题

在对网页使用正则表达式进行数据提取的过程中,有时候会遇到(.*?) 匹配的问题它并不能匹配到换行符因此我们需要一个符号来替代 比如[\s\S]*? 通过这种方法能匹配到包括换行符在内的所有字符

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值