大数据之道与术

记得曾听人说过,最重要的构建起自己的思维体系。现在隐隐约约能够有些理解,成长就是建立并不断完善自己思维体系的过程。

很久没写东西,但是对于最近的这几本书我觉得带给我蛮多惊喜,给了我不同的视角去看事情,需要将自己的一点点想法化成文字记录下来。仅对于大数据这块,浅谈一下自己想法。

作为一只小码农,兵来将挡水来码掩,一心扑在实现具体需求上,只注重技术实现,而没有从整体,站在更高的视角去看待数据问题。大数据不在于数据量大小,不在于使用什么具体的技术实现,而在于分析,在于解决问题,助力业务。

大数据时代,企业应该开启数据化运营来保证业务发展和用户增长。《增长黑客》一书中始终围绕着,数据分析->提出想法->排定优先级->快速验证,这四点在进行。用户在哪里高流失,热点功能,留存率,激活率等,只有数据才能实实在在反映公司的运营情况和产品的使用情况,用数据来作为产品的领航标。对于整体的数据分析来讲,如下四步:

数据分析:如《决战大数据》中很令我豁然开朗的观点,大数据就是尽可能还原用户当时的场景。从用户当时的场景出发,去分析为什么用户会在这个点流失?为什么这个点转化率低?具体的术,不限于页面埋点,或者问卷调查等。用数据找出产品中体验不佳的问题点。

提出想法:对于解决产品中分析出的问题,或者一些好的idea,可以拉上研发、产品、市场同事一起做头脑风暴,不同职责的人看问题的角度不一样,更可能会出现一些好的idea。必要时候,甚至可以请完全不同项目的人进来头脑风暴,激发灵感。

排定优先级: 对于上述的很多想法,肯定不可能在一个迭代里全部实现。可以从主方向相关度、实现成本、时间周期、带来效果等方面打分,评定需求优先级,来确定当前这个迭代周期该实现哪些。

快速验证: 互联网行业的快速迭代,对于确定好的需求就需要快速推出进行验证,是否有效,是否确实提升了用户留存等。当然对于改变来讲,都可能会带来未知的风险,不能保证效果是正还是负,所以可以使用A/B测试,确定部分效果后再推广。对于新的改变,一定要跟踪用户数据,对前后数据进行分析,产生了多大效果,一切应该以数据说话。

最后循环不断上面流程,坚持用数据去领航产品。

在这里插入图片描述

​以上是从产品迭代去讲数据分析,但是回归到大数据技术呢?数据湖,数据平台,整合了整个公司的海量数据,这些在于公司的意义又该怎样。现在数据处理大致下面几步:

数据采集:

  1. 从大数据浪潮之后,现在几乎每家公司都在疯狂收集数据,每个角落数据都不放过。但是用起来的却少之又少,最后发现数据指数级上升,成本高昂,却没产生该有的价值。在这里,我并不是反对数据收集,但是收集前需要对问题和数据做一些界定,这些数据对我业务真的有影响么?

  2. 不要太过相信数据准确。特别是作为数据平台,你需要对接上游无数个数据源,同时需要将数据服务下游诸多系统。数据的准确性越来越重要,你并不能保证上游系统百分百的数据准确,所以请做好“脏”数据打算,不要过于乐观。

数据存储:

数据进来以后就需要存储。可能很多业务部门会各自都有一套数据处理框架,优点在于更加灵活,缺点在于大量的数据冗余,成本飞升和数据不一致等。所以稍大型公司内部基本会将基础数据统一,这也是数据湖的初衷。关于数据存储一块,可以考虑三层结构:基础层,中间层,应用层。其中基础层数据,统一维护一份,保证数据一致,并尽量保持数据的原始状态,防止数据失真。中间层,可以按照业务模块,数据再生状态,时间等维度生成多张大宽表,或者使用雪花模型等,对一模块提供服务,允许各个模块之间一定的数据冗余,提供适度灵活性。

当然我们收集数据,最终是为了分析和使用。对于当下趋势,越来越实时化。我们还需要放很大部分精力在存储的同时,考虑如何快速索引,怎么保证我们能尽快的按照某些标签就能从海量数据中提取出我们需要的数据。一大团杂乱无序的数据,除了占服务器资源,没有任何意义。

数据应用:

如同前边产品中的数据分析一样,大公司和具体的数据建模的目的也是为了指导业务和商业。如果数据没有应用,没有去结合业务,那么数据本身也就没有什么意义。一个好的数据流程,应该如前所讲一样,是一个闭环。用数据应用指导产品,再通过产品收集自己需要的数据,丰富我们的数据。正如《刻意练习》中最重要的观点,反馈才是进步的动力,才能让自己看到哪里做得不够,哪里需要改进,而做数据也是一样。

对于数据开发人员,《决战大数据》里的“混”,“通”,“晒”还是很有思考的价值。“混”,与业务混在一起,了解业务,才能真正理解数据,提升数据敏感。“通”,数据之间需要连通才有价值,而在纷乱的数据中做到不同部门,甚至不同行业之间的数据串联在一起本身不管技术和沟通上都是一个大挑战,只有“通”,才能更好的还原用户当时的场景,甚至精确的预测下一步。“晒”需要把数据指标都晒出来,老板关心的不是指标,而是指标背后的why和how。计算出指标,还要更多的去想想能发现什么问题。

在这里插入图片描述

世间一切都是相同的,这也是为什么要构建自己的思维体系,以一应万。大数据分析这条道,同样也适用于个人,将个人看作一个产品,或者公司去做数据分析。那怎么用数据思维做个人管理?

数据收集:知乎上有个问题,给我留下了很深的印象。看了那么多书,真的有用吗?我不敢说自己看过很多的书,但是仔细回想,曾经看过的书中内容确实大多都已记不住了。所以我慢慢在强迫自己去做一些读书笔记这样的事情。但是我所做的还远远不够,读书时,遇到喜欢的句子,醍醐灌顶的一段话,其实都可以加上备注和所思所想,记录下来。这就是一个最基本的数据收集阶段。

数据存储:数据最终的目的是使用,并不是把数据收集回来就算完成目标。存储所对应的就是检索,能够在我们需要某个知识的时候,很快的从库里边调出这部分相关知识。所以对上一步收集回来的数据,可以通过标签、知识范畴、场景、时间等组合归类,便于我们快速的检索。(当然归纳碎片知识的时候,很多人会和我一样不知道该把这个知识归类到哪个标签上,其实是我们缺少对这个标签的具体和边界定义。正如一个思想所说,一个好的问题,就是具体完成后,答案就出来了)

数据应用: 对于生活中遇到的问题,我们求助于我们的知识库。但是这些知识都是没有经过检验的,而且整个社会一直处于动态变化中,所以我们应用这部分知识以后,还需要给给到反馈和反思。它是否适用,给我带来了什么样的影响,这个知识是不是需要怎么调整能更好适合我自己,再修改回自己的知识库。

命运二字,命中注定的某些东西无法更改,但是运这一项,财富,人际关系,知识和思考模式都是可以靠自己积累的。

建立完善自己的思维体系,会发现万物皆通。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1. 什么是大数据? 答:大数据是指数据量过大、复杂度高、处理速度快的数据,这些数据通常来自于各种不同的来源,包括传感器、社交媒体、互联网搜索、交易记录等。 2. 大数据的四个特点是什么? 答:大数据的四个特点是:数据量大、数据速度快、数据种类多、数据价值高。 3. Hadoop的主要组成部分是什么? 答:Hadoop的主要组成部分包括:Hadoop Distributed File System(HDFS)、MapReduce计算框架、YARN资源管理器。 4. 什么是MapReduce? 答:MapReduce是一种基于分布式计算模型的计算框架,用于处理大规模数据集。它将数据划分为多个小块,并在分布式计算节点上并行执行计算任务。 5. Hadoop和Spark的区别是什么? 答:Hadoop是一个基于MapReduce计算框架的分布式计算平台,而Spark是一个基于内存计算的分布式计算平台。Spark比Hadoop更快,更灵活,支持更多的数据处理任务和算法。 6. 什么是NoSQL数据库? 答:NoSQL数据库是一种非关系型数据库,适用于处理大量非结构化数据和半结构化数据,例如面向文档、键值对、列族等。 7. 什么是ETL过程? 答:ETL过程是将数据从不同的来源提取、转换和加载到目标数据库中的过程。ETL代表抽取、转换和加载。 8. 什么是数据仓库? 答:数据仓库是一个用于存储和管理大量结构化数据的系统,数据仓库通常用于支持企业的决策和分析。 9. 什么是数据挖掘? 答:数据挖掘是一种从大量数据中发现有用信息的过程,通常涉及使用统计分析、机器学习和人工智能技术。 10. 什么是机器学习? 答:机器学习是一种通过训练算法,使计算机系统能够自动改进和学习的方法。 11. 什么是深度学习? 答:深度学习是一种机器学习技术,它使用多层神经网络实现自动特征提取和分类。 12. 什么是人工智能? 答:人工智能是一种计算机科学技术,旨在使计算机系统能够模拟人类智能行为,包括学习、推理、自适应和创造性思考等。 13. 什么是大数据分析? 答:大数据分析是使用各种技术和工具对大量数据进行处理,以发现有用的信息、趋势和模式。 14. 什么是数据可视化? 答:数据可视化是通过图表、图形和其他视觉元素将数据呈现出来的过程,以便于人们理解和分析数据。 15. 什么是自然语言处理? 答:自然语言处理是一种计算机科学技术,旨在使计算机系统能够理解、处理和生成自然语言文本。 16. 什么是分布式计算? 答:分布式计算是将计算任务分配给多个计算机节点,以便更快地完成任务。 17. 什么是云计算? 答:云计算是一种通过互联网提供计算资源和服务的方法,包括存储、处理和分析大量数据。 18. 什么是流式数据? 答:流式数据是一种连续产生的数据,通常以流的形式传输和处理。 19. 什么是数据安全? 答:数据安全是指保护数据免受未经授权的访问、使用、泄露或修改的过程。 20. 什么是隐私保护? 答:隐私保护是指保护个人信息和隐私免受未经授权的访问、使用、泄露或修改的过程。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值