了解什么是画像及适用场景
画像:是真实实体的虚拟代表,是建立在一系列的真实数据之上的目标实体模型。
房源画像:现实中业主委托进行交易 的房屋代表即为房源。在房屋基础信息,物业,社区,交通,商圈,学区;实勘,调价,带看,被浏览,评论等真实数据的基础上对房源的描述。
画像的适用场景:
-
精准营销:根据客户需求,精确推荐,提高成功机率,节约时间,提升体验
-
数据挖掘:进行加个预估,成交预估,销售指导, 定价指导评估
-
统计分析:基于画像数据可以方便构建数据立方题,从各个角度进行解读
-
业务运营:业务经营分析以及竞争分析,影响企业方展战略
-
其他:对服务或产品进行私人定制,进行效果评估,完善产品运营,提升服务质量等。
了解如何构建画像
确定目标
基础数据收集
数据质量保障
信息抽象及归类
画像信息计算与集成
评估,优化,迭代
了解房源信息及房源画像构建思路
房屋基本信息
-
位置信息 省市区--小区(楼盘)---楼栋----单元---楼层---门牌----
-
户型-布局-装修 几厅几室几卫及具体布局----建筑面积\室内面积------房屋朝向----户型结构
-
其它杂项 供暖 供水方式---是否有电梯----建筑类型----建筑结构----梯户比例
房屋信息----配套服务及资源
-
开发商、物业
-
名称
-
品牌
-
资质
-
集团信息
-
服务电话
-
。。。。。
-
-
学校、医院
-
名称
-
分级
-
性质
-
地址
-
电话
-
占地面积
-
师资、医资力量
-
硬件水平
-
收费情况
-
。。。。
-
-
交通、商圈、社区
-
地铁站
-
地铁线
-
直线距离、步行距离
-
社区名称
-
社区类型、级别
-
。。。。
-
房源信息--委托信息
-
业主信息
-
交易信息
-
委托信息
-
房源现状
房源信息--业主、经纪人相关事件
使用阿里云产品独立完成房源画像建设
MaxCompute
大数据计算服务(ODPS)由阿里自主研发,提供针对TB/PB级数据,实时性要求不高的分布式处理能力,应用于原数据分析,挖掘,商业智能等领域,阿里巴巴的数据业务都运行在ODPS上
-
分布式
-
分布式集群架构
-
跨集群技术突破
-
集群规模可以根据需要灵活扩展
-
-
安全
-
自动存储容错机制
-
所有计算在沙箱中运行 保障数据高安全性,高可靠性
-
-
易用
-
标准API的方式提供服务
-
高并发高吞吐量数据上传下载
-
全面支持基于SQL的数据处理
-
-
管理与授权
-
支持多用管理协同分析数据
-
支持多种方式对用户权限管理
-
配置灵活的数据访问控制策略
-
MaxCompute基本概念
-
项目空间Project
MC的基本组织单元,它类似于传统数据库的Database或Schema的概念,时进行多用户隔离和访问的主要边界。一个用户可以同时拥有多个项目空间的权限。通过安全授权,可以在一个项目空间中访问另一个项目空间中的对象,例:表(Table),资源(Resource),函数(Function),实例(Instance)
-
表Table
MC的数据存储单元,它在逻辑上也是由行和列组成的二维结构,每行代表一条记录,每列表示相同数据类型的一个字段,一条记录可以包含一个或多个列,各个列的名称和类型构成这张表的Schema,表格分两种类型:内部表及外部表(MaxCompute2.0版本开始支持外部表)
-
分区Partition
为避免全表扫描,提高处理效率,为表创建分区,MaxCompute2.0支持TINYINT、SMALLINT、INT、BIGINT、VARCHAR和STRING分区类型。分区使用限制:单表分区层级 最多6级;单表分区数最多允许60000个分区;一次查询最多查询分区数10000个分区
-
任务Task
任务是MC的基本计算单元。SQL及MAPReduce功能都是通过任务完成的;用户提交任务尤其是计算型任务,分解成执行计划,执行计划是由具有依赖关系的多个执行阶段构成,逻辑上形成有向图
-
资源Resource
资源是MaxCompute的特有概念。用户如果想使用MaxCompute的自定义函数(UDF)或MAPReduce功能需要依赖资源来完成;资源类型包括:File类型、Table类型、Jar类型、Archive类型
MaxCompute底层存储及数据类型
MC底层存储使用的是分布式文件系统PanGu
-
基于列存储的文件格式,降低了无效磁盘读写,减少I0
-
以列为单位聚簇组织,存储前压缩,节省大量空间
MaxCompute SQL
-
适用于海量数据(GB TB EB级别)离线批量计算的场合
-
作业提交后会有几十秒到数分钟不等的排队调度,适合处理跑批作业,无法在毫秒级别返回用户结果
-
用户学习成本低,不需要了解分布式概念
-
不支持Update Delete;不支持主键、外键、事务
-
其他限制及与Oracle,Mysql,Hive对比参考
数据开发产品 Data IDE
大数据开发集成环境(Data IDE),提供可视化开发界面,离线任务调度运维,快速数据集成,多人协同工作等功能,为您提供一个高效,安全的离线数据开发环境。并且拥有强大的open API为数据应用开发者提供良好的在创作生态
数据开发-->数据管理-->作业调度
数据展示产品Quick BI
Quick BI提供海量数据实时在线分析服务,支持拖拽式操作,提供了丰富的可视化效果,可以帮助您轻松自如的完成数据分析,业务数据探查,报表制作等工作。
特点:丰富的数据 可视化效果
严密的权限管控
灵活的报表集成方案
智能加速引擎
海量数据多维分析
多数据源支持
最近学习阿里云大数据专项技能的画像分析 做的一些笔记~