20180806 - 知识整理-大数据分析的道与术

10大知识领域:
整合、范围、进度、成本、质量、人力资源、沟通、风险、采购、干系人

----------------------------------------------------------------------------------------------------------------------------------------------------------

商业模式:

1、很难说服用户:圈定用户范围。

2、做让用户长脸的事情:跨年演讲、高标准的选择老师和课程

3、绝不给用户丢脸:克制本能冲动、不轻易给产品打折、不是范围内用户的资源最好不要

4、从价格战到认知战:价格(比较中胜出),认知(不需要花时间做选择,用户感觉到还可以,有保证)

----------------------------------------------------------------------------------------------------------------------------------------------------------

1、目标:更快乐、更从容:想买就买(有经济基础)、坐个好位置(有权利关系)

2、体系:高等级:硬实力(现场写代码、落地展现)、软实力(一对多沟通讲解)

3-1、积累经验:更多知识点(好奇-观察-构思)、更多技能落地(博客、代码实现github)

3-2、时刻准备:有状态(满血满魔)、有基础(有钱有兵)、有小目标(小规模、大场面)

3-3、重点落地:全局视野(找关键+找针对)、评估(找大怪+找小怪)、经验(找地方+找量级)

----------------------------------------------------------------------------------------------------------------------------------------------------------

链表中环路问题:

两个人A和B在400米一圈的操场同向同时开始跑步,B的速度是A的两倍,那么A跑完一圈,B跑完两圈,相遇成环。

第一次相遇:链表有环,A不会跑完一圈就能和B相遇。

环长:相遇后再一次相遇,差值为环长。

进入环的起始点:A从起点开始跑,B从相遇的点开始跑,第一次相遇为环的起始点。

----------------------------------------------------------------------------------------------------------------------------------------------------------

毕然-《大数据分析的道与术》

终极目标:兴趣爱好和个人价值的共同实现。

目标实现的4个角色:产品经理(业务分析-数据分析)、数据分析师(数据分析-数据挖掘)、策略工程师(数据挖掘-机器学习)-研究员(机器学习-人工智能)。

数据分析的优势:

1、全局理解:日常业务监控与分析、具体产品业务的专题分析。

2、方法和经验的积累:多个产品业务、搭建数据系统(自动化报表-可视化数据)、建设数据模型(通用/具体)

2-1、数据样本:个案分析、异常分析、分组分析。

2-2、数据指标:分布分析、趋势分析(平均值-周期)、因素分析[空间(采购-生成-销售-资本)、时间(漏斗率-客户量-转化率)]。

数据分析的步骤:

1、业务分析:理解数据。确定目标Y(精准+置信+相关性)。

2、特征工程:人工设计特征。最直接思路-例外(难以获取、业界均有、企业独有)。减少计算性能开销、排除无效特征干扰。

3、样本处理:清洗和预处理数据。归一化(0-1)。冷启动(专家判断),训练与应用环境数据不同(保证样本分布一致性),小样本/大样本(小样本扩充、修改代价矩阵)。

4、假设空间:数据建模:分布、均值、方差、相似度(欧式距离,余弦夹角)

5、优化目标:

6、寻解算法:

7、学习理论:训练样本(产出模型)-验证样本(白盒-调整模型的参数)-测试样本(黑盒-模型有效的概率)。

8、模型评估:业务评估。推进应用。对照组-实验组(准确率-召回率)、可信度(基于概率)。

9、数据报告:拆解内容维度(5W1H)、确定图形类型[饼图(成分)-条形(排序-关联)-柱状(时间-频率)-线形(时间-频率)-散点(关联)]、选择表达方式(侧重+突出目标)。

9-1、掌握业务状态:追查指标波动、以核心指标做业务总结。

------细分样本(分组分析)

------细分指标(因素分析):横向(空间)拆解、纵向(时间)拆解

------改进产品策略(异常分析)

------周期规律(趋势分析)

9-2、分析业务潜力:产品当前主要问题、下一步发展潜力与相应对策。

------诸多原因和占比(个案分析)

------特征差异(聚类分析)

------披露风险(模型预测):将风险高的事情交给团队处理

9-3、评估业务进展:新上线的产品策略、新推动的运营活动。

------业绩提升:同质对照组

------覆盖面/影响面:精准[偏差bias(预测不精准-样本多特征粒度粗)]、置信[方差varience(预测不置信-样本少特征粒度细)]、相关性(似然-欧式距离-余弦夹角)

------存在的问题和进一步优化:因素分析(漏斗率)、阶段拆解

9-4、两类方法论:

一类:企业发展的两种模式:1-改变经济模式。针对长尾部分挖掘个性化的产品/服务。2-提升业务效率。基于现有业务深度挖掘/分类/预测。

二类:需求-业务-数据:需求(哪些是目标用户群,需要什么产品/服务,需要收集哪些数据)、业务(产品/服务)、数据(确认提供了想要的产品/服务,确认满足了目标用户群的需要)

10、局限思考:突变的未来(异常分析),新增的业务(机器按照一套规则预测,基于历史数据进行知识表示和统计学习,机器不能主动去理解和思考,没有自我意识),开发进度的不确定(由于数据分析步骤较多,选型复杂,软件开发的效果和进度的预期不确定,需要过程中调整,策略+工程结合)。

 

机器学习概述:

无监督:聚类(k-means,k的选取-经验+业务)、关联规则(如果A则B的概率)

监督:线性回归(连续),逻辑回归(离散)、SVM分类(核函数)、神经网络预测(连续+离散)

深度:在机器学习的基础上,无监督找到初始值和数据特征,再用监督进行精准+置信+相关性的建模。涉及的领域有限:计算机视觉+自然语言处理+推荐系统。一般都会采用卷积神经网络(CNN)或循环神经网络(RNN)。

为什么最后都是神经网络,而且更复杂?

1、符合自然规律。生物学上的神经系统,可以学习自然界任何事务。

2、好用有效。更复杂,代表了更精准、更置信、更具有相关性。

 

 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值