python实战案例——采集二手车数据并分析其价值

茜茜是帅哥

已于 2022-12-28 18:50:46 修改

阅读量5.1k

点赞数 6

分类专栏：数据分析 python爬虫文章标签： python 开发语言 pycharm

于 2022-12-28 18:50:23 首次发布

本文链接：https://blog.csdn.net/m0_72282564/article/details/128469568

版权

前言

嗨喽，大家好呀~这里是爱看美女的茜茜呐

又到了学Python时刻~

环境使用:

Python 3.8
Pycharm
- 专业版是付费的 <激活码可以免费用>
- 社区版是免费的

模块使用:

第三方模块需要安装的

requests >>> pip install requests
parsel >>> pip install parsel
csv

安装python第三方模块:

win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车
在pycharm中点击Terminal(终端) 输入安装命令

爬虫基本流程:

一. 数据来源分析

明确需求:
- 明确采集网站是什么?
- 明确采集数据是什么?
  
  车辆基本信息
分析车辆基本信息数据, 具体是请求那个网址可以得到

通过开发者工具, 进行抓包分析:
- 打开开发者工具: F12 / 鼠标右键点击检查选择network
- 刷新网页: 让本网页数据内容重新加载一遍 <方便分析数据出处>
- 搜索数据来源: 复制你想要的内容, 进行搜索即可
  
  车辆信息数据

二. 代码实现步骤

发送请求, 模拟浏览器对于url地址发送请求
获取数据, 获取服务器返回响应数据

开发者工具: response <网页源代码>
解析数据, 提取我们想要的数据内容
- 车辆信息
保存数据, 把车辆信息保存csv表格里面

代码展示

PS：本篇完整源码如有需要的小伙伴可以加下方的群去找管理员免费领取

采集数据

导入模块

# 导入数据请求模块 --> 第三方模块 需要安装 pip install requests
import requests
# 导入数据解析模块 --> 第三方模块 需要安装 pip install parsel
import parsel
# 导入csv模块 --> 内置模块 不需要安装
import csv

创建文件

f = open('data.csv', mode='a', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=[
    '标题',
    '年份',
    '里程',
    '城市',
    '价格',
    '标签',
    '是否保修',
    '详情页',
])

写入表头

csv_writer.writeheader()

“”"

发送请求, 模拟浏览器对于url地址发送请求
- 安装模块: win + R 输入cmd
  输入安装命令: pip install requests
- 导入模块是灰色, 不是报错, 而是导入模块没有使用
- 伪装模拟 headers 请求头
  1. 字典数据类型, 要构建完整键值对 <引号位置一定要加对>
  2. 可以直接复制
- <Response [200]> 响应对象
  200 状态码表示请求成功
- 批量替换
  1. 选择替换内容
  2. ctrl + R 输入正则命令即可
    :.*
    ,

“”"

for page in range(1, 51):
    print(f'======================正在采集第{
   page}页的数据内容======================')

确定请求链接

    # 伪装模拟
    headers = {
   
        # User-Agent 用户代理 表示浏览器基本身份信息
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
    }
    # 发送请求
    response = requests.get(url=url, headers=headers)
    print(response)

“”"

获取数据, 获取服务器返回响应数据
开发者工具: response <网页源代码>
response.text 获取响应文本数据 <网页源代码>
html字符串数据 --> re正则
解析数据, 提取我们想要的数据内容
- 车辆信息

css选择器: 根据标签属性提取内容
选择器对象

“”"

    # 把获取下来 response.text 转成 可解析对象
    selector = parsel.Selector(response.text)

最低0.47元/天解锁文章

茜茜是帅哥

关注

6
点赞
踩
73

收藏

觉得还不错? 一键收藏
1
评论
python实战案例——采集二手车数据并分析其价值

嗨喽，大家好呀~这里是爱看美女的茜茜呐又到了学Python时刻~
复制链接

扫一扫

专栏目录