回忆2015年我有幸作为CODER身份参与建设“大数据管理平台-DMP”,一晃4个春夏秋冬已过,遥想2015年房价,现在看来真是合理,如果当时我可以办理公积金贷款,我想我已不至于现在由于,而问题就怪当时的公司会按当时最低工资标准缴纳公积金,而归根结底呢,问题还是在自己身上!为什么不选择其他雇主?,为什么不去稳定的事业机关?,有什么理由在一家只有蓝图的公司呢?我市场安慰我自己:我参与开发和设计过DMP!
冗余的话不多说,现在貌似一切又回到原定,项目组急需一套大数据采集服务,实际采集功能隶属于DMP的一个模块,就这个模块展开,更专精的去尝试设计大数据采集服务平台,不过这次身份是已业务产品的身份参与。
全部项目流程:1需求沟通 2可行性报告(产品需求分析、商业需求分析、市场需求分析-竞品分析)3项目立项 4产品开发 5测试验收 6不断45回滚 7上线运行
S1:简单收到领导从业务部门提出的8个数据需求:
- 要有IP代理池,避免使用公司主网IP,保证网络稳定
- 支持JSON、xml半机构化数据结构化解析
- 验证码识别,支持机器学习自己训练OCR识别算法与打码平台
- 采集模板
- 可视化的配置流程,配置支持xpath、CSS选择等
- 爬虫调度管理策略,要分布式部署采集
- 图片、视频、压缩文件数据下载,pc、wab、app采集
- 支持自定义工具开发扩展,支持.PY脚本与现有工具配合使用
综上看起来还比较专业,毕竟这些都是博士分析师提出的需求,拿到这么多需求,确定最