数据分析
茵茵的聪聪
这个作者很懒,什么都没留下…
展开
-
Spark2.X学习(1) - 结构化API概述(DataFrame与DataSet)
Spark2.X学习(1) - 结构化API概述(DataFrame与DataSet)本系列笔记主要参考《Spark权威指南2.X》,主要学习在Spark2.X中的DataFrame和DataSet等结构化API。一些Spark的基础知识,可以参考之前我断断续续的学习笔记:《Spark快速大数据分析》- Spark应用运行原理文章目录Spark2.X学习(1) - 结构化API概述(DataFrame与DataSet)1. 结构化API简介1.1 DataSet与DataFrame1.2 行、列、模式原创 2020-12-26 18:25:14 · 649 阅读 · 1 评论 -
Spark入门程序WordCount实现(Java)
文章目录1. 环境与数据准备1.1 运行环境1.2 数据准备2. 代码实现2.1 maven工程创建2.2 代码逻辑2.3 编译、打包、运行Reference为了快速入门java与Spark工程的构建与开发,本次使用java实现Spark经典程序WordCount,过程记录如下,如有错误,请指正。1. 环境与数据准备1.1 运行环境Hadoop:2.7.7Spark:2.4.7java:1.8.0_211Maven:3.6.31.2 数据准备使用如下命令启动Hadoo原创 2020-11-29 12:56:13 · 2528 阅读 · 0 评论 -
《维度建模权威指南第三版》- 读书笔记(一) 简介
文章目录1. 维度建模是什么?2. 维度建模技术概述2.1 事实表2.2 维度表2.1 维度设计过程Reference本文为《维度建模权威指南-kimball》前两章的读书笔记,如有错误,请指正。1. 维度建模是什么?对一个产品,我们通常会存储用户行为日志等海量数据,这些数据通常被用来:开发数据看板,作为产品核心指标与主要业务场景的数据监控与分析数据分析/挖掘,从数据中洞察信息,为产品的优化和迭代提供有说服力的指导在这个过程中,我们的数据仓库需要满足以下两个需求:数仓中数据的组织形式是分原创 2020-11-21 18:37:21 · 2936 阅读 · 0 评论 -
推荐系统学习 - (1)基本算法
文章目录1. 推荐系统简介1.1 推荐系统是什么?1.2 推荐系统的类型2. 推荐系统常用算法2.1 协同过滤算法2.1.1 UserCF基础算法2.1.2 ItemCF基础算法2.1.3 相似度修正2.1.4 UserCF与ItemCF对比2.2 隐语义模型2.2.1 算法原理2.2.2 LFM与协同过滤对比2.3 基于图的模型Reference最近想了解下推荐系统,阅读了《推荐系统实践》(项亮),本文简单介绍推荐系统常用算法的原理,大部分内容来自项亮大牛的书籍。1. 推荐系统简介1.1 推荐系统是原创 2020-05-23 20:41:37 · 1534 阅读 · 0 评论 -
算法与实战 - (3) 常见数据分析项目类型
文章目录1. 用户特征分析(用户分层)2. 活跃度定义(指标定义)3. 路径分析与漏斗分析4. 交叉销售模型5. 商品推荐模型6. 信用风险模型7. 客户预测模型Reference本文主要参考 《数据挖掘与数据化运营实战 思路、方法、技巧与应用》,作者总结了在数据化运营中常见的数据分析项目类型。在这里结合自己的理解,简单介绍下图所示的分析项目,涉及的算法或技术原理可能在后续笔记中详细介绍。各...原创 2020-04-30 21:44:43 · 730 阅读 · 0 评论 -
算法与实战 - 常见的数据处理技巧
文章目录1. 缺失值与异常值1.1 缺失值处理1.2 异常值处理2. 数据转换2.1 衍生变量2.2 改变变量分布2.3 分箱转换2.4 数据归一化3. 共线性问题3.1 识别共线性3.2 处理共线性4. 变量筛选4.1 线性相关指标筛选4.2 R-Square筛选4.3 卡方检验筛选Reference在数据分析/挖掘项目中,通常会包括需求确定、数据处理、模型建立、落地应用。其中,数据处理又包括...原创 2020-04-26 16:37:52 · 1438 阅读 · 0 评论 -
算法与实战 - (1)聚类
最近在阅读阿里数据分析专家卢辉的《数据挖掘与数据化运营实战》。书中结合了实际业务案例,介绍了在实战项目中数据分析和数据挖掘的许多知识点,干货满满。因此,打算结合书中内容,对一些重要的主题加以总结,在过程中加深对各个知识点的理解。文章目录1. 聚类应用场景2. 常用聚类方法2.1 原型聚类Kmeans聚类算法高斯混合模型GMM2.2 密度聚类DBSCAN2.3 层次聚类3. 聚类效果的评估4. ...原创 2020-04-24 00:14:39 · 677 阅读 · 0 评论 -
《增长黑客》- 读书笔记(五)实战之拉新、激活、留存、变现
文章目录1. 拉新1.1 语言-市场匹配1.2 渠道-产品匹配1.3 设计病毒循环2. 激活2.1 定位激活实验的三个关键步骤2.2 触发物策略3. 留存3.1 初期留存3.2 中期留存3.3 长期留存4. 变现4.1 绘制变现漏斗4.2 群组分析4.3 了解消费者心理Reference用户在使用产品的时候,可以根据用户进入的时间、使用频率等,对生命周期划分为不同阶段。在数据分析中,常用的生命...原创 2020-04-16 13:07:44 · 4435 阅读 · 0 评论 -
《增长黑客》- 读书笔记(四)增长黑客循环
文章目录1. 增长黑客循环2. 小结Reference开展的实验越多,学到的东西也就越多。——《增长黑客》在上一篇笔记中讲到,增长黑客方法的第二步是**通过北极星指标的确定与拆解,确定当前阶段产品的增长战略。**在确定增长方向后,就要开始进入增长黑客的第三步——快节奏地、周而复始地进行数据->假设->优先级->实验的增长黑客循环。1. 增长黑客循环增长黑客循环:...原创 2020-04-15 11:57:46 · 2628 阅读 · 0 评论 -
《Hive用户指南》- Hive性能调优
文章目录1. 数据模型相关1.1 Partition 分区表1.2 Bucket 桶表2. 场景优化2.1 全排序2.2 笛卡尔积2.3 EXISTS/IN子查询2.4 Multi-group by3. 配置相关4. 数据倾斜问题4.1 空值导致的数据倾斜4.2 不同数据类型关联导致的数据倾斜4.3 大表关联导致的数据倾斜ReferenceHive针对的应用场景是OLAP,通常对大数据集进行查询...原创 2020-04-11 13:13:18 · 555 阅读 · 0 评论 -
《Hive用户指南》- Hive的连接join与排序
《Hive用户指南》- Hive的连接join与排序文章目录《Hive用户指南》- Hive的连接join与排序1. 连接1.1 left semi join1.2 mapjoin2. 排序2.1 Order By2.2 Sort By 和 Distribute By2.3 Cluster ByReference在之前的笔记中,介绍了Hive的基本架构,以及常见的SQL操作如何转化为MapR...原创 2020-04-09 20:44:27 · 425 阅读 · 0 评论 -
《Hive用户指南》-HiveSQL转化为MapReduce任务
文章目录1. hive.fetch.task.conversion参数2. 转化为MR任务的SQL2.1 JOIN2.2 GROUP BY2.3 DISTINCTReferenceHive是Facebook实现的一个开源的数据仓库工具——Hive基于Hadoop实现,底层数据存放在HDFS中,计算(查询)使用MapReduce任务实现将结构化的数据文件映射为数据库表,并提供HQL查询功能,...原创 2020-04-08 15:03:52 · 1886 阅读 · 0 评论 -
《Spark快速大数据分析》- Spark应用运行原理
文章目录1. Spark的主从结构1.1 驱动器程序Driver1.2 执行器程序Executor2. 集群管理器概念区分3. 运行流程小结Reference本文是在阅读《Spark快速大数据分析》后,根据里面提到的知识点,对Spark的运行原理进行总结概括。说明:这本书使用的spark版本是1.2,目前最新版本已经是3.0,所以可能笔记中有些内容在新版中已经不再适用。1. Spark的主从...原创 2020-04-02 10:22:18 · 374 阅读 · 0 评论 -
《Spark快速大数据分析》- 根据简单例子理解RDD
本文是在阅读《Spark快速大数据分析》后,根据里面提到的知识点,对Spark的运行原理进行总结概括。说明:这本书使用的spark版本是1.2,目前最新版本已经是3.0,所以可能笔记中有些内容在新版中已经不再适用。1. RDD简介RDD,弹性分布式数据集(Resiliennt Distributed Datasets),是Spark中最重要的核心概念,是Spark应用中存储数据的数据结构。...原创 2020-04-01 11:53:15 · 2633 阅读 · 0 评论 -
AB实验样本量确定
文章目录1. 统计功效与关键概念2. Z检验样本量确定2.1 统计功效公式推导2.2 样本量计算公式2.3 求解样本量3. 卡方检验样本量确定3.1 求解样本量4. 简要总结Reference在数据分析过程中,一个完整的闭环是从数据中得到洞察,根据洞察得到某种假设,通过实验检验这一假设。AB实验实际上是在做一个假设检验,可以参考上一篇笔记【概率论】- (2)假设检验,在查资料的过程中,主要有两...原创 2020-01-11 18:59:13 · 13907 阅读 · 3 评论 -
【概率论】- (2)假设检验
在数据分析过程中,一个完整的闭环是从数据中得到洞察,根据洞察得到某种假设,通过实验检验这一假设。实验环节中会涉及到一些概率论知识,比如统计推断中重要的两类问题,区间估计和假设检验。之前概率论学过相关知识,但已经有些模糊,在此复习记录。区间估计假设检验假设检验有两种求解思路,分别是:临界值法:计算拒绝域,比较检验统计量与拒绝域确定结果p值检验法:计算检验统计量得到 ppp 值,比较...原创 2020-01-03 17:36:56 · 3391 阅读 · 0 评论 -
【概率论】- (1)区间估计
区间估计在数据分析过程中,一个完整的闭环是从数据中得到洞察,根据洞察得到某种假设,通过实验检验这一假设。实验环节中会涉及到一些概率论知识,比如统计推断中重要的两类问题,区间估计和假设检验。之前概率论学过相关知识,但已经有些模糊,在此复习记录。区间估计假设检验1. 区间估计与置信区间区间估计是什么?在统计推断中有两类问题,一类为估计问题,一类为假设检验。估计问题中主要包括点估计和区...原创 2019-12-11 20:04:09 · 4168 阅读 · 0 评论 -
《增长黑客》- 读书笔记(三)北极星指标拆解
文章目录1. 确定北极星指标1.1 北极星指标的作用与特性1.2 北极星指标的制定标准1.3 举几个栗子2. 北极星指标拆解2.1 拆解作用/目的2.2 拆解技巧实例3. 小结Reference在进行快节奏增长实验前,你必须清楚地知道你将如何驱动增长,你的增长杠杆是什么以及他们是否能够帮助你取得理想的结果。——《增长黑客》在上一篇笔记中讲到,增长黑客方法的第一步是评估产品是否实现了产品-市...原创 2019-11-30 20:40:28 · 1866 阅读 · 0 评论 -
《增长黑客》- 读书笔记(二)PMF与Aha时刻
文章目录1. 增长之前的PMF1.1 PMF是什么?1.2 为什么要实现PMF?2. 评估PMF:寻找Aha时刻2.1 判断Aha时刻的存在性2.2 寻找Aha时刻3. 小结Reference如果产品不受用户的喜爱,那么任何试验都无法激发持久的增长!——《增长黑客》在我们知道了增长黑客的一些方法后,可能会摩拳擦掌,跃跃欲试。但是,在试验之前,首先要确保自己的产品是合格的,是有需求、可以被市...原创 2019-11-16 20:32:30 · 3818 阅读 · 0 评论 -
《增长黑客》- 读书笔记(一)
文章目录《增长黑客》- 读书笔记(一)1. 笔记简介2. 增长黑客是什么?2.1 增长黑客方法论2.2 增长黑客的应用范围2.3 增长黑客的作用Reference《增长黑客》- 读书笔记(一)“If you are not growing, then you are dying!”如果企业不在增长,那就是在衰亡!1. 笔记简介在早期的互联网行业中,实现用户增长的营销方式是以市场营销为...原创 2019-11-16 10:01:22 · 762 阅读 · 0 评论