基于画像的房源分析

本文介绍了房源画像的概念,它是基于真实数据的房屋虚拟模型,用于精准营销、数据挖掘、统计分析等场景。构建房源画像涉及确定目标、收集基础数据、信息抽象、计算集成等步骤,并通过阿里云MaxCompute进行大数据处理。同时,文章提到了DataIDE和QuickBI等工具在数据开发和展示中的应用。
摘要由CSDN通过智能技术生成

了解什么是画像及适用场景

画像:是真实实体的虚拟代表,是建立在一系列的真实数据之上的目标实体模型。

房源画像:现实中业主委托进行交易 的房屋代表即为房源。在房屋基础信息,物业,社区,交通,商圈,学区;实勘,调价,带看,被浏览,评论等真实数据的基础上对房源的描述。

画像的适用场景:

  • 精准营销:根据客户需求,精确推荐,提高成功机率,节约时间,提升体验

  • 数据挖掘:进行加个预估,成交预估,销售指导, 定价指导评估

  • 统计分析:基于画像数据可以方便构建数据立方题,从各个角度进行解读

  • 业务运营:业务经营分析以及竞争分析,影响企业方展战略

  • 其他:对服务或产品进行私人定制,进行效果评估,完善产品运营,提升服务质量等。

了解如何构建画像

确定目标

基础数据收集

数据质量保障

信息抽象及归类

画像信息计算与集成

评估,优化,迭代

了解房源信息及房源画像构建思路

房屋基本信息

  • 位置信息 省市区--小区(楼盘)---楼栋----单元---楼层---门牌----

  • 户型-布局-装修 几厅几室几卫及具体布局----建筑面积\室内面积------房屋朝向----户型结构

  • 其它杂项 供暖 供水方式---是否有电梯----建筑类型----建筑结构----梯户比例

房屋信息----配套服务及资源

  • 开发商、物业

    • 名称

    • 品牌

    • 资质

    • 集团信息

    • 服务电话

    • 。。。。。

  • 学校、医院

    • 名称

    • 分级

    • 性质

    • 地址

    • 电话

    • 占地面积

    • 师资、医资力量

    • 硬件水平

    • 收费情况

    • 。。。。

  • 交通、商圈、社区

    • 地铁站

    • 地铁线

    • 直线距离、步行距离

    • 社区名称

    • 社区类型、级别

    • 。。。。

房源信息--委托信息

  • 业主信息

  • 交易信息

  • 委托信息

  • 房源现状

房源信息--业主、经纪人相关事件

使用阿里云产品独立完成房源画像建设

MaxCompute

大数据计算服务(ODPS)由阿里自主研发,提供针对TB/PB级数据,实时性要求不高的分布式处理能力,应用于原数据分析,挖掘,商业智能等领域,阿里巴巴的数据业务都运行在ODPS上

  • 分布式

    • 分布式集群架构

    • 跨集群技术突破

    • 集群规模可以根据需要灵活扩展

  • 安全

    • 自动存储容错机制

    • 所有计算在沙箱中运行 保障数据高安全性,高可靠性

  • 易用

    • 标准API的方式提供服务

    • 高并发高吞吐量数据上传下载

    • 全面支持基于SQL的数据处理

  • 管理与授权

    • 支持多用管理协同分析数据

    • 支持多种方式对用户权限管理

    • 配置灵活的数据访问控制策略

MaxCompute基本概念

  • 项目空间Project

MC的基本组织单元,它类似于传统数据库的Database或Schema的概念,时进行多用户隔离和访问的主要边界。一个用户可以同时拥有多个项目空间的权限。通过安全授权,可以在一个项目空间中访问另一个项目空间中的对象,例:表(Table),资源(Resource),函数(Function),实例(Instance)

  • 表Table

MC的数据存储单元,它在逻辑上也是由行和列组成的二维结构,每行代表一条记录,每列表示相同数据类型的一个字段,一条记录可以包含一个或多个列,各个列的名称和类型构成这张表的Schema,表格分两种类型:内部表及外部表(MaxCompute2.0版本开始支持外部表)

  • 分区Partition

为避免全表扫描,提高处理效率,为表创建分区,MaxCompute2.0支持TINYINT、SMALLINT、INT、BIGINT、VARCHAR和STRING分区类型。分区使用限制:单表分区层级 最多6级;单表分区数最多允许60000个分区;一次查询最多查询分区数10000个分区

  • 任务Task

任务是MC的基本计算单元。SQL及MAPReduce功能都是通过任务完成的;用户提交任务尤其是计算型任务,分解成执行计划,执行计划是由具有依赖关系的多个执行阶段构成,逻辑上形成有向图

  • 资源Resource

资源是MaxCompute的特有概念。用户如果想使用MaxCompute的自定义函数(UDF)或MAPReduce功能需要依赖资源来完成;资源类型包括:File类型、Table类型、Jar类型、Archive类型

MaxCompute底层存储及数据类型

MC底层存储使用的是分布式文件系统PanGu

  • 基于列存储的文件格式,降低了无效磁盘读写,减少I0

  • 以列为单位聚簇组织,存储前压缩,节省大量空间

MaxCompute SQL

  • 适用于海量数据(GB TB EB级别)离线批量计算的场合

  • 作业提交后会有几十秒到数分钟不等的排队调度,适合处理跑批作业,无法在毫秒级别返回用户结果

  • 用户学习成本低,不需要了解分布式概念

  • 不支持Update Delete;不支持主键、外键、事务

  • 其他限制及与Oracle,Mysql,Hive对比参考

数据开发产品 Data IDE

大数据开发集成环境(Data IDE),提供可视化开发界面,离线任务调度运维,快速数据集成,多人协同工作等功能,为您提供一个高效,安全的离线数据开发环境。并且拥有强大的open API为数据应用开发者提供良好的在创作生态

数据开发-->数据管理-->作业调度

数据展示产品Quick BI

Quick BI提供海量数据实时在线分析服务,支持拖拽式操作,提供了丰富的可视化效果,可以帮助您轻松自如的完成数据分析,业务数据探查,报表制作等工作。

特点:丰富的数据 可视化效果

                  严密的权限管控

                  灵活的报表集成方案

           智能加速引擎

           海量数据多维分析

           多数据源支持

最近学习阿里云大数据专项技能的画像分析 做的一些笔记~

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值