自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 手把手教程-基于“四象图”选出低竞争高价格的亚马逊产品

这篇操作流程是我最近的一些选品心得,基于“竞品数”和“月销售额”生成“四象图”选出低竞争、高价格的竞品,然后对标开发产品。先交代一下,今年3月1号,叔辞去了大数据开发的工作,现在在全职做亚马逊。分别取中位数后,便得到“四象图”

2024-05-21 17:50:30 1664

原创 用户画像项目两大核心内容之一“one_id”(含SQL实现代码)

一、one_id概述用户画像项目有两个核心内容:用户画像标签和用户one_id。用户标签体系,是波士顿咨询公司的团队帮忙搭建的,而我本人则是负责one_id的设计和生成。one_id,是用户唯一标识,用于海量数据中识别出同一个人。目前市面上有两种one_id:无中生有的one_id和基于现有用户数据生成的one_id。后者是前者的子集。无中生有的one_id,就是基于用户访问数据:获取用户的(上网设备)设备号、ip地址等生成one_id基于用户注册后留下手机号、身份证等基本信息,将不同的on

2021-04-19 17:38:37 7212 6

原创 DW层更新:HIVE脚本三步实现“缓慢变化维2更新”--保留历史数据

今天,就分享一下我过去一周的两点工作收获:1、DW层更新:“缓慢变化维2更新”,HIVE脚本三步实现2、ODS层更新:源数据去重的两种方式“缓慢变化维1”是全量覆盖,一步到位。而"缓慢变化维2",要保留历史数据,实现需要三步走。已经好几个月没有接触HIVE了,之前也提到我们的人力项目的HIVE数仓被替换成了oracle数仓。在项目结束之际,“经营驾驶仓”的源浩大佬善意提醒:“你之前的‘缓慢变换维’,hive脚本,是不是少了一步?”我之前给大家的科普的思路只有两步:1、获取“新”的有效数据

2020-12-05 11:32:12 3362 10

原创 (二)ODS层更新:源表和目标表,没有last_update,比对取增量,却重复抽到某部分数据,怎么解决?

源表和目标表,比对的时候,某部分数据,每次比对都被认为是“新数据”,然后每次抽取比对都会被过滤到目标表,从而造成目标表有很多重复数据,是什么原因呢?原因是该表的多个字段“数据缺失严重”,我们比对数据前是已经给空值/空格填了默认值,也就是说这些被填充过的字段,是有很多重复值的。我们联表查询时,关联字段时有重复值时,那这次查询肯定会发散,而我们用的kettle【合并记录】插件的原理也是联表查询。我的上一篇文章《ODS层更新:如果源数据没有“更新时间“字段,如何作增量抽取?我都踩过这些坑》提到用来联表的字段,.

2020-11-29 09:10:45 3983 8

原创 (一)ODS层更新:如果源数据没有“更新时间“字段,如何作增量抽取?我都踩过这些坑

增量抽取,无疑可以提高数仓的数据抽取效率和节省存储空间。一、源数据有“更新时间”字段源数据,有更新字段时(last_update),增量抽取的步骤:(流程概览)步骤二:细节–从步骤插入数据二、源数据无“更新时间”字段好,到主题了。源数据,有”更新时间“,抽起来真舒服,可现实的业务场景,源系统给我们的源表呢,是多张表拼凑起来的视图,然后源系统的开发人员,不知道是耿直,还是偷懒,就不给源数据增加”last_update",估计他每次上报的数据,都是全量更新过来的吧。广汽大圣这边接收的是广汽集团

2020-11-21 08:38:52 3864

原创 SCD2维度更新,如何紧急将hive脚本 改成 Oracle脚本

我面试到广汽大圣,据面试官说,我将加入的项目组是做HIVE数仓的。进去后,就虚心地跟各位大佬们学习写HIVE脚本更新,加班一个月996,HIVE的SCD1更新脚本、SCD2更新脚本都写得差不多了.叔激动地跟同组的同事击掌欢呼:“yes!yes! yes!”"我们项目的hive数仓 将改用 oracle数仓。。。“ 项目经理低沉地说。”我靠!电影都不敢这么拍!"我们慌得很。此时距离项目上线只有10天。“又要从零开始了吗?要写存储过程吗?”一、HIVE数仓SCD2更新:1、从【源表】获取相对于【维度

2020-11-07 09:30:41 614

原创 一条“线段”读懂油站差异化竞争

企业竞争,最明治的做法:不是“硬碰硬”,而是“错位竞争”。给自己的企业树立“人设”,让用户记住你的“人设”。那企业如何找到自己的"人设“呢?我这就用一根普通的”线段“告诉你

2020-06-11 21:51:12 1049 2

原创 业务需求拆解:乐有家新门店“选址问题”

业务需求:乐有家新店(网点)选址从市场的过户量数据得知,东莞市东城区是该市过户量最高的区域。现在我司要在该区域设置网点,从数据分析的角度提供建议,应该如何设置网点。写出分析思路即可,不需要具体的论证数据。解题提取关键词:“过户”、“设置网点”解读关键词:【过户】:二手房买卖、易主,是乐有家的主要业务之一。【设置网点】可以界定该业务需求是”分类问题“,基于某几种维度将“东莞市东城区”分为几类区域,然后选一类区域设置网点。解题关键:如何界定好“分类维度”发散:既然是选址,那跟手机地图.

2020-06-09 23:32:12 800

原创 数据分析思维第二步(一):开启分析思路——学会提问

接到业务需求,先不要急着去做数据清洗、特征工程,而是要"问",问清楚需求,问清楚数据

2020-06-04 08:34:49 432

原创 数据分析思维第一步:【界定业务需求】

你自己学会当场将业务方的”需求“拆解成指标,不香吗?网络上有很多现成的“分析指标”,那你有没有思考过,这些指标对研究对象都是有效的吗?符合你们公司的发展规律吗?是当下业务方需要的吗?

2020-06-04 08:07:43 558

原创 深度分析|《电信用户流失预测模型》(所有分类模型精度平均得分在0.8以上)

本文对于老手, 今后处理“分类问题”有借鉴意义。啥分类模型都碰瓷一遍,选得分最高的模型。本文对于新手,是刻意练习python数据分析的不二选择。同一份数据,反复操练,以培养python代码的肌肉记忆

2020-06-03 20:48:31 22242 59

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除