数据分析
文章平均质量分 70
KEN11
3G门户数据分析师,刚入门的数据分析菜鸟,有三年的J2EE开发经验以及毕业于二流的应用数学学院,做一个数据界的屌丝级分析师。
展开
-
2、推荐引擎以及协同过滤算法的实现
关于推荐引擎以及协同推荐的介绍,推荐使用IBM文档库的文章,这篇文章深入地解释推荐引擎的发展历史以及目前的应用场景,还深入介绍了协同算法的数学原理以及Mahout实现,本文只是在这篇文章的基础上记录自己学习学协同推荐算法的笔记。一、测试数据测试数据使用用户的购买行为记录表,具体数据如下:用户ID商品ID评分11015110原创 2012-09-22 19:41:21 · 1213 阅读 · 0 评论 -
在Pandas中,如何根据Group By 结果计算 Row Number
例如我们有下面的数据,第一列是用户的ID,第二列是用户的购买日期,现在如果我们需要判断用户是否重复购买,并且,每一次的购买,下一次的购买时间间隔是多少呢?原创 2016-07-11 15:35:23 · 10303 阅读 · 2 评论 -
数据挖掘的标准流程
CRISP-DM (cross-industry standard process for data mining), 即为"跨行业数据挖掘过程标准". 此KDD过程模型于1999年欧盟机构联合起草. 通过近几年的发展,CRISP-DM 模型在各种KDD过程模型中占据领先位置,采用量达到近60%.(数据引自Cios and Kurgan于2005年合著的论文trands in data minin原创 2012-11-15 11:19:23 · 16178 阅读 · 4 评论 -
Mahout中相似度计算方法介绍
在现实中广泛使用的推荐系统一般都是基于协同过滤算法的,这类算法通常都需要计算用户与用户或者项目与项目之间的相似度,对于数据量以及数据类型不同的数据源,需要不同的相似度计算方法来提高推荐性能,在mahout提供了大量用于计算相似度的组件,这些组件分别实现了不同的相似度计算方法。下图用于实现相似度计算的组件之间的关系:图1、项目相似度计算组件图2、用户相似度计算组件原创 2012-11-14 10:24:35 · 1018 阅读 · 0 评论 -
3、关于手机型号的前缀翻译表
今天做了一个手机型号的前缀翻译表,每个型号都自己跑去查了一次。为了避免以后大家还要继续做这种无用功,在这里记录下来。表1、手机代码对应表 ebestE派ADRHTCdesireHTCgHTChtcHTClegendHTCmytouchHTCpc原创 2012-09-24 21:06:50 · 3505 阅读 · 0 评论 -
决策树算法
通俗来说,决策树分类的思想类似于找对象。现想象一个女孩的母亲要给这个女孩介绍男朋友,于是有了下面的对话: 女儿:多大年纪了? 母亲:26。 女儿:长的帅不帅? 母亲:挺帅的。 女儿:收入高不? 母亲:不算很高,中等情况。 女儿:是公务员不? 母亲:是,在税原创 2012-10-12 21:19:17 · 2966 阅读 · 0 评论 -
主成分分析
主成分分析(Principal Component Analysis):一种统计方法,它对多变量表示数据点集合寻找尽可能少的正交矢量表征数据信息特征。1、简介在用统计分析方法研究这个多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息原创 2012-09-21 20:25:18 · 3541 阅读 · 0 评论 -
4、数据分析师对AARRR模型的应用思考
AARRR模型很好地总结了移动互联网应用推广运营中的五个阶段,分别为:获取用户(Acquisition)、提高活跃度(Activation)、提高留存率(Retention)、获取收入(Revenue)、自传播(Refer),作为数据分析师,在每一个阶段,我们应该如何配合运营部门进行数据分析?一、获取用户(Acquisition) 目前移动互联网应用用户来源主要有以下方式:原创 2012-09-27 13:00:46 · 6147 阅读 · 0 评论 -
AARRR模型——揭开应用推广运营背后的秘密
在和大量移动应用开发者接触的过程中,我们注意到有一个现象是:很多开发者只注意应用的下载量和激活量,他们把这些指标看成是一款应用成功与否的标志。于是很多应用出现了“重推广、轻运营”,甚至是“有推广、无运营”的情况。 但是,一个人真正成为某款应用的用户是在哪个时刻呢?是他决定下载这款应用的时候吗?还是他安装了这款应用的时候?事实上,都不是。甚至当他启动并 进入了这款应用的时候转载 2012-09-26 19:34:12 · 1689 阅读 · 0 评论 -
读懂你的用户留存
留存一直都是用来评定用户粘度的最好指标,从字面上就很好理解“有多少用户留下来了”,这是对你总体应用质量最直观的说明。 在一个浮躁的大环境下,很多产品过分的关注用户量而不计代价,想尽办法换来了不少“过眼云烟”,结果也只能是一吹而散,长期无益。近期各种报告中都不断指出In-App Purchase的Free应用比下载付费更好赚钱,无论是靠流量还是靠付费生存的应用都应着转载 2012-09-27 10:10:53 · 1947 阅读 · 0 评论 -
陈老师撕B志玲姐姐的热门微博数据分析
昨晚陈老师不知因何事忽然在微博上骂女神志玲姐姐,引起来网友们的热闹围观,导致前几天风风火火的汪峰的前妻吸毒的事件,顿时落下帷幕,汪峰老师好不容易上了一次头条,就这么被硬生生的扯下来了。原创 2016-07-29 19:20:26 · 1370 阅读 · 0 评论