7 数据产品:让数据应用更便捷
7.1 自助提取和自助分析
7.1.1 自助提取工具
自助提取主要流程如下:
- 需求分析。盘点历史的临时临时取数情况,并对业务数据需求进行调研和分析,确定业务需求的范围和目标。
- 纬度和指标抽象。抽象处满足业务大部分需求的纬度和指标,尤其要注意时间力度的选择。
- 可行性分析。认真分析上一步抽象出来的纬度和指标,评估这些纬度和指标加工的技术可行性,然后剔除可行性低的维度和指标。
- 技术选型。确定技术架构和技术方案。
- 技术实现。自助取数界面设计和技术实现,使得用户使用托、拉、拽就可以完成自助取数。
- 推广培训。 对业务部门培训如何使用自助提取工具。
自助提取的核心是结构清晰的数据仓库、
- 实时聚合计算。通过高效的聚合计算引擎完成需求的实时计算,然后通过查询引擎进行查询和取数操作。常见的高效的聚合计算引擎有Presto、Impala、ClickHouse等。
- 预计算。利用类似于Kylin的计算引擎提前将维度和指标计算好,然后通过高效的查询引擎支持提取操作。
- 两者结合的方式。先看预计算模型是否支持,如果不支持,那么选择实时聚合计算获得数据。
自助提取工具可有效地解决大部分常规的数据需求,解放数据开发人员,让数据开发人员能有更多精力花费在数据仓库的优化和数据质量的提升方面。
7.1.2 自助分析工具
自助分析工具解决了分析可视化的问题,使数据不用落地,通过托、拉、拽、上钻和下钻等操作就能完成数据分析任务。常见的可视化工具有Tableau、Congns、SmartBI、Superset、Redash和Metabase等。
7.2 数据爬虫
数据爬虫是数据中台常见的数据工具之一,它从第三方平台爬取数据,经过数据清洗之后获得高质量的数据为我所用。
requests负责连接网站返回网页的原始数据,使用XPath工具解析网页,然后将数据规整为需要的结构和格式并存储在数据库。
7.3 客户画像
构建客户画像的好处是,对客户的描述呈现结构化和体系化特征,这样便于通过一张大宽表存储客户的标签信息,实现客户标签的吃的查询和检索。客户画像的应用场景很多,如客户需求挖掘、客户可视化、产品推荐、客户风险等级等。
7.4 标签圈选
客户圈选功能分为两种场景:一种是基于已有标签的查询和检索,不涉及聚合计算。另一种是探索性的查询,涉及聚合计算。
7.5 客户分群
客户分群一般用于产品推荐和个性化营销场景。基于客户的纬度和指标信息,分析出每个客户群的特点,然后基于这些特点抽象出每个客户群的形象化的名称,即可完成客户分群。
客户分群一般采用聚类和数据分析的方法。聚类的方法主要是通过各个客户之间的距离来对客户进行区分。数据分析的方法一般是根据业务专家的经验,然后通过数据分析师辅助和校验,继而对客户进行分区。