大数据分析的道与术总结

怎么进行数据分析

从业务中来,到业务中去,顾名思义,数据分析要围绕业务进行,由此我们得出来 业务调研->创新分析->逻辑思考->可行建议

数据分析的关键

数据分析的关键是方法而不是技术,就像我们写作一样,华丽的修辞并不重要,最重要的要表达出自己的想法以及意境和格局。 多角度思考问题,通常我们可以拓展知识面,比如说,从经济学,心理学和统计学进行数据分析

数据分析要避开的坑

精心准备的数据, 从数据相关性得出结论,数据分析不通过比较,数据准备不充分,先入为主 ,从统计学的观念入手,过度脑补的推理

统计学是怎么发明的?

生活中,我们面对事情,要多想想为什么,而不是是什么,探讨问题背后的本质才是最重要的。之所以使用统计被发明是因为统计学能够简化数据,通过更简单的方式看到数据的本质。

统计学真的可信吗?

统计学是对抽样慨率的一种体现,所以我们不能全新,如果这样说的话,感觉统计学几乎没什么作用了,但是大数定律告诉我们随着我们对抽样样本的增多,统计值会无限趋向于真实值。

数据分析过程我们要善于从不同的维度进行分析事物,但是随着维度的增加,会造成数据量的减小,所以我们要学会使用大数定律进行权衡利弊。

我们要怎么认知这个世界?通过平行的理论(实验组和对照组),通过统计抽样进行比较(根据大数定律,数据抽样要尽可能大,减少正态分布的误差)

我们思考问题的入手方式有哪些?化繁为简,逐步改进。找出典型,从中入手。基于需求,做出应用。

分析数据的实用方法?

拆指标

分布分析,我们在分析数据时不能只看统计数据,还要看分布状态。

趋势分析,不同的场景使用不同的方案去做分析

因素分解, 分为纵向拆分(分模块划分)和横向逻辑(加减乘除)两种办法

拆数据

个案分析 选择明显特征的个案进行分布分解分析 异常分析 科学或者数据分析的进步都是因为异常而被发现的 分组分析 针对不同的需求进行不同的群体划分,例如,广告投放业务,我们需要按照,新老客户,大小客户,不同行业客户进行划分.

怎么分组

分组分析在实际使用种又可以分为留存分析,价格歧视,根据不同用户群体和需求细分

相关领域分析

通过四象限法则,把不同的用户或者事物进行划分。

olap分析方法

切片(按照不同维度进行划分)和钻取(更进一步的细分)

非监督机器学习算法

聚类分析: 告诉机器按照不同的维度进行划分出数据模型 关联分析: 按照我们想要的模式进行划分(置信度和知识度要高)

监督学习算法

给出假设算法模型,机器穷举计算,得出最优算法(随着特征的越来越多,正态分布最后会形成一条线,分析的也是越来越准确)

机器学习说白了人的学习(人根据业务,取得样本,设计算法,机器执行,查看结果),机器只是在执行。

银行信贷算法是基于似然概率进行计算得出。

大数据的作用?

通过大量的数据,我们能够对一些特征值进行细化,根据特征值又能进一步高效利用大数据 对于大数据,我们首先要有一个这样的认识,数据分析技术并不重要,我们首先要有一定数据积累,然后结合我们的业务模型,然后利用数据技术,分析出可用的技术。 编程基础(python和R语言)+ 结合具体业务 输入图片说明

一个团队,每个人扮演的角色都非常重要,我们要善于发现别人的美,不能存在比较之心。

转载于:https://my.oschina.net/u/1787735/blog/891886

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值