数据分析
当我们获取到网页的内容之后,我们需要对信息进行进一步的提取,数据提取的话有很多中提取方式,简单的提3个,正则表达式,xpath,和bs4,这几个都可以帮助我们提取到有用的信息,因为目前看到了正则表达式,我就根据正则表达式来大致的写一下提取的过程,以及我提取过程中所遇到的问题
正则表达式
有关正则表达式的相关用法还需要自己去找视频学,在这里就简单的说一下我在数据分析时候遇到的问题, 后期会在这里不断补充
python 正则表达式用法
import re
import requests
# 获取url 取得数据
def get(url):
# 添加头部信息
headers = {
'User-agent': '123'
}
proxies = {
'http': '192.123.123.123:8080'
}
resp = resquests.get(url, headers=headers, proxies=proxies)
data = resp.content.decode('utf-8')
def parse(html)
# 用正则表达式对其进行解析
pattern = re.compile('这里为正则表达式的规则')
result = pattern.findall(html)
# 在这里会根据你的正则式获取到你想要的信息,
# 这个信息的存储方式是一个列表,
# 要对数据进行分组后会方便提取数据
遇到的问题
在对网页使用正则表达式进行数据提取的过程中,有时候会遇到(.*?) 匹配的问题它并不能匹配到换行符因此我们需要一个符号来替代 比如[\s\S]*? 通过这种方法能匹配到包括换行符在内的所有字符