本次目的:
python采集链家二手房源数据并做数据可视化展示
亮点:
- 系统分析网页性质
- 结构化的数据解析
- csv数据保存
环境介绍:
- python 3.8 解释器
- pycharm 专业版2021.2 >>> 激活码 编辑器
模块使用:
- requests >>> pip install requests
数据请求 (用python代码 模拟浏览器对于服务器发送请求) - parsel >>> pip install parsel
数据解析 (提取我们想要数据内容) parse 对于你们以后学习scrapy(核心组件之一)有帮助 - csv
内置模块 不需要安装 获取到的数据内容保存到csv表格数据
win + R 输入cmd 输入安装命令 pip install 模块名
response.text (服务器返回响应文本数据)
本节课的上课流程思路(爬虫最基本思路流程:)
- 明确需求(爬取内容: 视频数据/音频数据/图片)
- 发送请求: 对应分析得到url
- 获取数据: response.text[文本数据 网页源代码] response.json()[json字典数据] response.content(二进制数据)
- 解析数据(提取我们想要数据内容) 解析方式: css xpath re
- 保存数据(保存csv表格) 视频/图片/音频/文字…文件 本地 数据库
[静态网页]
一. 数据来源分析
爬虫: 对于网页上面的数据内容进行采集程序
- 确定爬取的内容是什么东西?
二手房源的基本数据 - 通过开发者工具进行抓包分析, 分析这些数据内容是可以哪里获取
通过开发者工具, 分析可得 >>> 我们想要的房源数据内容(房源详情页url) 就是来自于 网页源代码
如果你要爬取多个房源数据, 只需要在列表页面 获取所有的房源详情页url
二. 代码实现步骤: 发送请求 >>> 获取数据 >>> 解析数据 >>> 保存数据
- 发送请求, 是对于房源列表页发送请求 链接
- 获取数据, 获取网页源代码 response.text
- 解析数据, 提取我们想要的内容, 房源详情页url
- 发送请求, 对于房源详情页url地址发送请求
- 获取数据, 获取网页源代码 response.text
- 解析数据, 提取房源基本信息 售价 标题 单价 面积 户型…
- 保存数据
- 多页数据采集
爬取数据代码
导入模块
import pprint # 格式化输出模块 内置模块
import requests # 数据请求模块 第三方模块 pip install requests
import parsel # 数据解析模块 第三方模块 pip install parsel
import csv # csv模块 内置模块 不需要安装
"""
68-102: 文件创建 69行: 文件创建 76行文件配置 102行写入表头 fieldnames 里面的数据是字典里面键
"""
f = open('房源.csv', mode='a', encoding='utf-8', newline='')
"""
如何实现快速替换:
1. 选择需要替换的内容
2. 按 ctrl + R
3. 输入正则表达式语法 进行替换 第一行写正则语法(匹配数据) 第二行写替换的内容
4. 点击全部替换
"""
csv_writer = csv.DictWriter(f, fieldnames=[
'上次交易',
'交易权属',
'产权所属',
'单价',
'售价',
'套内面积',
'建筑类型',
'建筑结构',
'建筑面积',
'户型结构',
'房屋年限',
'房屋户型',
'房屋朝向',
'房屋用途',
'房本备件',
'房源核验码',
'所在楼层',
'抵押信息',
'挂牌时间',
'标题',
'梯户比例',
'装修情况',
'详情页',
'配备电梯',
])
csv_writer.writeheader() # 写入表头
for page in range(1, 11):
print(f'===================正在爬取第{page}页数据内容===================')
# 1. 发送请求
url = f'网址' # 确定请求的url地址
# 模拟浏览器发送请求 需要对于python代码进行伪装
# headers:请求头 字典数据类型 键值对形式
# header作用: 伪装
# 加那些参数: cookie User-Agent(UA) referer host
# 参数意思是什么
# cookie: 用户信息, 常用于检测是否登陆账号
# User-Agent: 浏览器基本身份标识(用户代理)
# referer: 防盗链 告诉服务器我们发送请求的url地址是从哪里跳转过来 (动态网页)
# host: 域名
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36'
}
response = requests.get(url=url, headers=headers)
# 2. 获取数据, 获取网页源代码 response.text
# print(response.text) # 返回数据字符串数据类型
# 3. 解析数据 解析方式: css xpath re
# css选择器: 根据标签属性内容提取数据
selector = parsel.Selector(response.text) # 返回对象
# attr 属性选择器 getall() 获取所有 返回数据列表 人家语法就是这样 a::attr(href) 取a标签里面href属性
href = selector.css('.sellListContent li .title a::attr(href)').getall()
# print(href)
# 列表 数据容器(一个箱子) 'https://cs.lianjia.com/ershoufang/104107916240.html' 元素(箱子里面东西)
# for 循环 遍历就是从这个箱子里面一个一个拿东西出来
for link in href:
# 4. 发送请求, 对于房源详情页url地址发送请求
# 5.获取数据, 获取网页源代码response.text
response_1 = requests.get(url=link, headers=headers)
# 6. 解析数据提取我们想要数据
# print(response_1.text)
selector_1 = parsel.Selector(response_1.text) # 返回对象
# get() 取一个
title = selector_1