华为云数据湖工厂服务DLF

1. DLF服务说明

参考官网:https://support.huaweicloud.com/productdesc-dlf/dlf_07_001.html ,数据湖工厂服务(Data Lake Factory,简称DLF)是华为云大数据重要的平台产品,它可管理多种大数据服务,提供一站式的大数据开发环境、全托管的大数据调度能力,极大降低用户使用大数据的门槛,帮助用户快速构建大数据处理中心。

使用DLF,用户可进行数据建模、数据集成、脚本开发、工作流编排、运维监控等操作,轻松完成整个数据的处理分析流程。

简而言之就是,这个是一个集合,也是一个调度中心,你在华为云上使用的大多数服务都可以通过DLF串联起来从而实现一个自动化流水线形式的功能,下面以我的实验来解释DLF的工作流程以及我的个人看法与认知。

2. 任务制定及分析

小明同学作为一个北漂技术宅在租房问题上遇到了点问题,他想在北京租到合适而且价格便宜的房子,但是市面上有大大小小各种租房网站,一个一个翻再对比显得有点麻烦,于是乎他想到了可以用华为云的各种服务搞一个自动化系统,从不同的网站获取数据,然后进行筛选过滤,最后将相对合适的一些房源数据展示出来。恩,小明一拍脑瓜子就觉得这个可以搞,然后开始了他的脱发之旅。

2.1 数据源

小明同学的第一个问题是数据从哪来呢,显然,网上这么多的网站,爬就完事了。那么以链家为例,我们开始用爬虫技术获取房屋租赁信息并保存为csv文件,我这里就直接使用Scrapy框架进行爬虫,没有代理IP池没有复杂的请求头,就简单的取数据,延迟设置长一点一般不会被封,还有就是爬虫得到的数据不允许商用,否则律师函警告。

首先看看网站啥样

在这里插入图片描述

关键数据为:

  • price:房租价格
  • area:面积
  • loc:位置
  • zone:房型
  • time:发布时间
  • direction:朝向
  • title:名称及描述
  • tag:标签

然后就是尝试以及代码完成了,结果如下:

spider.py(这里对tag的处理有点问题,虽然没有报错,但是影响了后面的数据)

在这里插入图片描述

item.py

在这里插入图片描述

settings.py

在这里插入图片描述

piplines.py

在这里插入图片描述

最后结果保存在result.csv文件中,文件内容大概类似

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值