表弟刚毕业工资2500,节衣缩食一年准备买200W左右的房,让我帮他参谋一下房子买哪里好,买房过程简直太励志了!
通过他辛苦工作一年终于攒下五千块,最后在家里支援了199.5W后,成功全款拿下房子…
这谁顶得住啊😳
算了我们还是回到文章吧 ~
📢准备工作
软件
python 3.8 解释器
pycharm 专业版2021.2
不会安装的可以看我零基础系列都有讲
使用的模块及安装
requests >>> pip install requests 数据请求 (用python代码 模拟浏览器对于服务器发送请求)
parsel >>> pip install parsel 数据解析 (提取我们想要数据内容) parsel 对于你们以后学习scrapy(核心组件之一)有帮助
csv 内置模块 不需要安装 获取到的数据内容保存到csv表格数据
win+r 输入cmd,输入安装命令 pip install 加上模块名
爬虫通用流程思路
1.明确需求(抓取内容: 视频数据/音频数据/图片)
2.发送请求: 对应分析得到url
3.获取数据: response.text[文本数据 网页源代码] response.json()[json字典数据] response.content(二进制数据)
4.解析数据(提取我们想要数据内容) 解析方式: css xpath re
5.保存数据(保存csv表格) 视频/图片/音频/文字…文件 本地 数据库
数据来源分析
爬虫: 对于网页上面的数据内容进行采集程序
1. 确定爬取的内容是什么东西?
二手房源的基本数据
2. 通过开发者工具进行抓包分析, 分析这些数据内容是可以哪里获取
通过开发者工具, 分析可得 >>> 我们想要的房源数据内容(房源详情页url) 就是来自于 网页源代码
如果你要爬取多个房源数据, 只需要在列表页面 获取所有的房源详情页url
代码实现步骤:
发送请求 >>> 获取数据 >>> 解析数据 >>> 保存数据
1. 发送请求, 是对于房源列表页发送请求 https://cs.***.com/ershoufang/
2. 获取数据, 获取网页源代码 response.text
3. 解析数据, 提取我们想要的内容, 房源详情页url
4. 发送请求, 对于房源详情页url地址发送请求
5. 获取数据, 获取网页源代码 response.text
6. 解析数据, 提取房源基本信息 售价 标题 单价 面积 户型....
7. 保存数据
8. 多页数据采集
📢爬虫代码
代码部分
import pprint # 格式化输出模块 内置模块
import requests # 数据请求模块 第三方模块
import parsel # 数据解析模块 第三方模块
import csv # csv模块 内置模块 不需要安装
f = open('房源.csv', mode='a', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=[
'上次交易',
'交易权属',
'产权所属',
'单价',
'售价',
'套内面积',
'建筑类型',
'建筑结构',
'建筑面积',
'户型结构',
'房屋年限',
'房屋户型',
'房屋朝向',
'房屋用途',
'房本备件',
'房源核验码',
'所在楼层',
'抵押信息',
'挂牌时间',
'标题',
'梯户比例',
'装修情况',
'详情页',
'配备电梯',
])
csv_writer.writeheader() # 写入表头
for page in range(1, 11):
print(f'===================正在爬取第{
page}页数据内容===================')
# 1. 发送请求
url = f'https://cs.****.com/ershoufang/pg{
page}/' # 确定请求的url地址
# 模拟浏览器发送请求 需要对于python代码进行伪装
# headers:请求头 字典数据类型 键值对形式
# header作用: 伪装
# 加那些参数: cookie User-Agent(UA) referer host
# 参数意思是什么
# cookie: 用户信息, 常用于检测是否登陆账号
# User-Agent: 浏览器基本身份标识(用户代理)
# referer: 防盗链 告诉服务器我们发送请求的url地址是从哪里跳转过来 (动态网页)
# host: 域名
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36'
}
response = requests.get(url=url, headers=headers)
# 2. 获取数据, 获取网页源代码 response.text
# print(response.text) # 返回数据字符串数据类型
# 3. 解析数据 解析方式: css xpath re
# css选择器: 根据标签属性内容提取数据
selector = parsel.Selector(response.text) # 返回对象
# attr 属性选择器 getall() 获取所有 返回数据列表 人家语法就是这样 a::attr(href) 取a标签里面href属性
href = selector.css('.sellListContent li .title a::attr(href)').getall()
# print(href)
# 列表 数据容器(一个箱子) 'https://cs.****.com/ershoufang/104107916240.html' 元素(箱子里面东西)
# for 循环 遍历就是从这个箱子里面一个一个拿东西出来
for link in href:
# 4. 发送请求, 对于房源详情页url地址发送请求
# 5.获取数据, 获取网页源代码response.text
response_1 = requests.get(url=link, headers=headers)
# 6. 解析数据提取我们想要数据
# print(response_1.text)
selector_1 = parsel.Selector(response_1.text) # 返回对象
# get() 取一个
title = selector_1.css('.title .main::text').get() # 标题
price = selector_1.css('.price .total::text').get() # 售价
price_1 = selector_1.css('.unitPriceValue::text').get() # 单价
attr_list = selector_1.css('.base .content li .label::text')