爬虫系列文章(一)明确业务需求

本文介绍了一种从国家电网电子商务平台抓取招标公告的方法,并提取公告中的货物清单,最终整理为统一的CSV文件格式。具体包括下载文件、解压、寻找特定Excel表格并抽取关键字段的过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.项目背景

接到业务部门提出需要在国家电网下载文件,详细沟通后将需求逐步明确和澄清,详见:

  • 数据来源
    http://ecp.sgcc.com.cn/ecp1.0/project_list.jsp?site=global&column_code=014001001&project_typ
    e=1
  • 抓取国家电⽹电⼦商务平台所有招标公告,下载“项⽬公告⽂件”
  • 将下载的项⽬公告⽂件解压后,寻找有’货物清单’字样的Excel表格,
  • 将所有的货物清单统⼀合并成⼀个csv⽂件
  • 获取货物清单Excel表格中的指定共15列数据
    ‘包号’, ‘⽹省采购申请⾏号’, ‘项⽬单位’, ‘需求单位’, ‘项⽬名称’, ‘⼯程电压等级’, ‘物资名称’, ‘物资描
    述’,‘单位’, ‘数量’, ‘交货⽇期’, ‘交货地点’, ‘备注’, ‘技术规范ID’, ‘状态’
  • 其中’状态’列是后期添加列,指的是本标书的项⽬状态,例如’已经截标’,‘正在评标’,'评标结束’等
    状态

用Xmind脑图梳理如下:
明确业务需求

2.流程步骤

  • 下载文件
  • 解压文件
  • 修改编码
  • 寻找"货物清单"
  • 合并数据
  • “项目状态”列数据添加到合并数据里

3.工具及技术

  • requests
  • lxml
  • time
  • urllib
  • re,os
  • shutil
  • zipfile
  • threading

以上对需求的拆解以及整体的分析思路
接下来通过代码实现每个步骤:爬虫系列文章(二)爬取页面分析及信息获取

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值