1. DLF服务说明
参考官网:https://support.huaweicloud.com/productdesc-dlf/dlf_07_001.html ,数据湖工厂服务(Data Lake Factory,简称DLF)是华为云大数据重要的平台产品,它可管理多种大数据服务,提供一站式的大数据开发环境、全托管的大数据调度能力,极大降低用户使用大数据的门槛,帮助用户快速构建大数据处理中心。
使用DLF,用户可进行数据建模、数据集成、脚本开发、工作流编排、运维监控等操作,轻松完成整个数据的处理分析流程。
简而言之就是,这个是一个集合,也是一个调度中心,你在华为云上使用的大多数服务都可以通过DLF串联起来从而实现一个自动化流水线形式的功能,下面以我的实验来解释DLF的工作流程以及我的个人看法与认知。
2. 任务制定及分析
小明同学作为一个北漂技术宅在租房问题上遇到了点问题,他想在北京租到合适而且价格便宜的房子,但是市面上有大大小小各种租房网站,一个一个翻再对比显得有点麻烦,于是乎他想到了可以用华为云的各种服务搞一个自动化系统,从不同的网站获取数据,然后进行筛选过滤,最后将相对合适的一些房源数据展示出来。恩,小明一拍脑瓜子就觉得这个可以搞,然后开始了他的脱发之旅。
2.1 数据源
小明同学的第一个问题是数据从哪来呢,显然,网上这么多的网站,爬就完事了。那么以链家为例,我们开始用爬虫技术获取房屋租赁信息并保存为csv文件,我这里就直接使用Scrapy框架进行爬虫,没有代理IP池没有复杂的请求头,就简单的取数据,延迟设置长一点一般不会被封,还有就是爬虫得到的数据不允许商用,否则律师函警告。
首先看看网站啥样
关键数据为:
- price:房租价格
- area:面积
- loc:位置
- zone:房型
- time:发布时间
- direction:朝向
- title:名称及描述
- tag:标签
然后就是尝试以及代码完成了,结果如下:
spider.py(这里对tag的处理有点问题,虽然没有报错,但是影响了后面的数据)
最后结果保存在result.csv
文件中,文件内容大概类似