远离“数据呆” 对业务的理解和思考永远高于分析技术的选择

随着数据积累得越来越多,数据获取成本不断降低,人们开始走向另一个危险的极端,那就是任何事情都要看数据,任何决定都去依赖数据。这种风气培养出了越来越多的“数据呆”。作为一个数据分析师,我是非常反对“唯数据论”的。为什么呢?让我详细地来说一说。

远离“数据呆” 对业务的理解和思考永远高于分析技术的选择

  数据库并不能记录一切

你觉得,通过数据库中的记录,你能够充分了解你的业务吗?答案是否定的。说白了,数据库只是记录了发生在业务链条上的行为,但行为的结果并不代表业务的全部。举个例子,通过用户的使用行为数据,我们就能知道用户的体验吗?答案是不能,我们只是根据用户的“行为结果”去猜测他使用体验的好坏。真正的用户感觉,在他们的心理,许多时候,不会通过既定的使用路径和产品功能提现出来。

那么,数据库不能记录的信息,怎么获取呢?答案其实很简单,通过外部手段,创造条件去获取。概括为“调查”和“实验”两个词。比如用户体验不能量化的问题,直接问不就好了?调查分为访谈和问卷调查两个方式,每种方式都需要落地成可量化的结果。问卷调查建议规律性地长期进行,连续收集的数据在时间维度上可比,价值远远大于单次的问卷调查。实验的方式在第四章中有所论述,它正是一种创造数据的手段。通过实验组和对照组,创造出一个对比的条件,进而量化出差异,最终形成可靠的判断。

不可能分离多重因素影响

我们在运营当中最容易犯的错误就是试图用一个“宏观指标”的变化来评估某个细节动作(策略的改变、产品的改变或者活动的改变)的影响。做这件事情好比买彩票,幸运的时候,某个运营动作对业务的影响非常大,那么从指标中能反映出来。但绝大多数时候,不管是策略的变更还是产品的改进,对业务全局的影响都是有限的,宏观指标(往往是KPI)的变化并不敏感。真正要做的是就事论事,根据具体的行动,去定义一个信度和效度高的指标。

另一个角度,业务指标的变动往往是多种运营动作共同施加的结果,这种影响并不能简简单单的分解为“A+B+C+…”或者“ABC*…”。有些因素叠加可能相互放大影响,有些则可能相互抑制,宏观指标只是这众多影响的结果,内部的影响机制是黑箱。极端点说,不可能将每个因素的影响都分离出来。

那么怎么办呢?怎样能衡量具体某个运营动作带来的影响呢?答案就是实验,也只有实验。就是通常所讲的AB测试。实验中,运营动作施予对象必须分为实验组和对照组,实验组和对照组唯一的不同,就是实验组被施予了运营动作,而对照组没有。只有这样,观察实验组与对照组的指标差异(方差分析或者DID),我们才有可能去量化某个运营动作的影响。

数据不能替代逻辑推理

一个逻辑混乱的人,给他再多的数据,也不会得出正确的结论。能否形成正确的判断和合理的决策,很大程度上并不是数据的多少,数据足够(信息充分)就可以了。很多时候,我们真正要锻炼的是自己的分析问题的能力,或者说逻辑思维能力。尤其是在“根据数据变化查找问题”这样的场景中。

要对这一点有深刻的理解,希望大家读我的《数据驱动决策的13种思维方式》。你是不是一个明智的决策者,并不在于你手头有多少的数据,而在于你能否从数据中正确地解读信息。需要提醒各位的是,当数据达到一定的量后,数据越多,往往数据质量越差,你犯错的可能性越大。你是否记起了本书第一章最后部分,数据图中指标数量与混淆概率的关系了?

远离“数据呆” 对业务的理解和思考永远高于分析技术的选择

  预测的根基未必牢固

数据分析工作,很大一部分是为了“预测”。所有预测模型的“根基”都是“通过过去发生的事来预知将来的事”。说得更玄乎一点,就是“历史是会重演的”。但这个基本逻辑靠得住吗?

从我的个人经历来说,许多时候是靠不住的。这也是我在工作中很少进行预测型建模的原因。在我所处的互联网行业,业务变化非常快。一个“政策”的决定,往往造成各项业务数据的巨变。经常是“一夜回到解放前”或者“一晚跨入新时代”。在这种背景下,重要的不是去对某个指标进行预测,而是理解业务背后最根本的商业逻辑(商业模式)。若一个商业逻辑被证明是有效的,那么它在相当长的一段时间内不会变化,那么你就能获得一些“定性”的预测能力,这就足够了。

大多数人会因数据而变傻

为什么这么说呢?在我的工作经历中,大多数的管理层,都会因为数据资源的丰富而或多或少地放弃思考。放弃思考意味着变傻,难道不是吗?许多人,自身因为长期业务经验的积累,其实是有很好的直觉的。而现在,却被一个不熟悉业务,只会从数据库中做些统计的所谓数据分析师牵着鼻子走。实在是“可歌可泣”。许多人过分地依赖数据统计了。这个现象是值得警觉的。

曾经有一位学者告诉我,数据分析使人短视甚至盲目。开始我不以为意,但之后越来越觉得这话有道理。为什么呢?现实情况是,许多人有了数据资源后,放弃了最基本的商业思考,不断地去统计数据,不断地去提“帮我查一下这个数字,帮我看一下那个数字”这样的需求。失去了思考的深度,非常危险。

我觉得,真正的数据分析(业务分析),应该有很高的门槛。这个门槛并不来自于分析方法的应用,而来自于对业务的理解。只有对业务有深刻的理解,才能将分析方法用对地方,才能正确地解读信息,获得结论。

所以,许多深耕在业务中的管理者,不需要因为数据资源的爆炸而惊慌失措,真正有价值的东西在你们经验里,只需要有一个量化的出口,你才是那个将数据价值发挥到最大的人。

那么问题来了,如何做到不因数据而变傻呢?我没有答案。我认为在未来,不应该有数据分析师这个职业,而应该是所有决策者都懂得“分析数据”。这实际上是写作本书最深层的一个目的。当所有决策者都能正确地获取数据、合适地应用分析方法,得出可靠的结论时,我们的商业将进入一个新的阶段,商业智能才真正落地。

最后,我还是想强调,任何人在应用数据前,都要记住这样一句话:“对业务的理解和思考,永远高于分析技术的选择”。

本文转自d1net(转载)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据分析数据质量分析数据特征分析 数据分析数据质量分析数据特征分析 1.数据质量分析 数据质量分析数据挖掘中数据准备过程的重要⼀环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础,没有可信的数据数据挖掘构建的模 型将是空中楼阁。 数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据⼀般是指不符合要求,以及不能直接进⾏相应分析数据。在常见的数据挖掘⼯作中,脏数据 包括: (1)缺失值; (2)异常值; (3)不⼀致的值; (4)重复数据及含有特殊符号(如#、¥、*)的数据。 1.1缺失值分析 数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成分析结果的不准确,以下从缺失值产⽣的原因及影响等⽅⾯展开 分析。 (1)缺失值产⽣的原因 1)有些信息暂时⽆法获取,或者获取信息的代价太⼤。 2)有些信息是被遗漏的。可能是因为输⼊时认为不重要、忘记填写或对数据理解错误等⼀些⼈为因素⽽遗漏,也可能是由于数据采集设备的故 障、存储介质的故障、传输媒体的故障等⾮⼈为原因⽽丢失。 3)属性值不存在。在某些情况下,缺失值并不意味着数据有错误。对⼀些对象来说某些属性值是不存在的,如⼀个未婚者的配偶姓名、⼀个⼉童 的固定收⼊等。 (2)缺失值的影响 1)数据挖掘建模将丢失⼤量的有⽤信息。 2)数据挖掘模型所表现出的不确定性更加显著,模型中蕴含的规律更难把握。 3)包含空值的数据会使建模过程陷⼊混乱,导致不可靠的输出。 (3)缺失值的分析 使⽤简单的统计分析,可以得到含有缺失值的属性的个数,以及每个属性的未缺失数、缺失数与缺失率等。 1.2异常值分析 异常值分析是检验数据是否有录⼊错误以及含有不合常理的数据。忽视异常值的存在是⼗分危险的,不加剔除地把异常值包括进数据的计算分析过程中,会给结果带 来不良影响;重视异常值的出现,分析其产⽣的原因,常常成为发现问题进⽽改进决策的契机。异常值是指样本中的个别值,其数值明显偏离其余的观测值。异常值也 称为离群点,异常值的分析也称为离群点分析。 (1)简单统计量分析 可以先对变量做⼀个描述性统计,进⽽查看哪些数据是不合理的。最常⽤的统计量是最⼤值和最⼩值,⽤来判断这个变量的取值是否超出了合理 的范围。例如,客户年龄的最⼤值为199岁,则该变量的取值存在异常。 (2)3σ原则 如果数据服从正态分布,在3σ原则下,异常值被定义为⼀组测定值中与平均值的偏差超过三倍标准差的值。在正态分布的假设下,距离平均值3σ 之外的值出现的概率为P("x-µ">3σ) 0.003,属于极个别的⼩概率事件。如果数据不服从正态分布,也可以⽤远离平均值的多少倍标准差来描述。 (3)箱形图分析 箱形图提供了识别异常值的⼀个标准:异常值通常被定义为⼩于QL-1.5IQR或⼤于QU+1.5IQR的值。QL称为下四分位数,表⽰全部观察值中有 四分之⼀的数据取值⽐它⼩;QU称为上四分位数,表⽰全部观察值中有四分之⼀的数据取值⽐它⼤;IQR称为四分位数间距,是上四分位数QU与 下四分位数QL之差,其间包含了全部观察值的⼀半。箱形图判断异常值的标准以四分位数和四分位距为基础,四分位数具有⼀定的鲁棒性:多达 25%的数据可以变得任意远⽽不会很⼤地扰动四分位数,所以异常值不能对这个标准施加影响。由此可见,箱形图识别异常值的结果⽐较客观,在 识别异常值⽅⾯有⼀定的优越性,如图所⽰。 在平常的数据分析过程中可以发现,可能其中有部分数据是缺失的,但是如果数据记录和属性较多,使⽤⼈⼯分辨的⽅法就很不切合实际,所 以这⾥需要编写程序来检测出含有缺失值的记录和属性以及缺失率个数和缺失率等。同时,也可使⽤箱形图来检测异常值。R语⾔检测代码如下所 ⽰。 # 设置⼯作空间 # 把"数据及程序"⽂件夹拷贝到F盘下,再⽤setwd设置⼯作空间 setwd("F:/数据及程序/chapter3/⽰例程序") # 读⼊数据 saledata <- read.csv(file = "./data/catering_sale.csv", header = TRUE) # 缺失值检测 并打印结果,由于R把TRUE和FALSE分别当作1、0,可以⽤sum()和mean()函数来分别获取缺失样本数、缺失⽐例 sum(complete.cases(saledata)) sum(!complete.cases(saledata)) mean(!complete.cases(saledata)) saledata[!complete.cases(saledata), ] # 异常值检测箱线图 sp <- boxplot(saledata$"销量", boxwex = 0.7) title("销量异常值检测箱线图") xi <- 1.1 sd.s <-
验证传感器的检测范围、精度和鲁棒性,并对传感器数据进行分析和验证,可以采取以下步骤: 1. 确定测试环境:选择适当的测试场地和条件,以模拟不同的工作场景和环境。考虑到车辆的运行速度、路面状况、光照条件等因素。 2. 设计测试方案:制定详细的测试方案和测试用例,根据传感器类型和应用场景来设计测试内容。包括静态和动态测试,不同目标物的距离和速度等。 3. 安装校准传感器:确保传感器正确安装和校准。根据厂商提供的说明,进行传感器的校准操作,以保证其准确性和可靠性。 4. 进行功能测试:验证传感器的检测范围,即测试其能够检测到的目标物距离的上限和下限。通过将目标物逐渐靠近或远离传感器,并记录传感器检测到的距离信息,来确定检测范围。 5. 进行精度测试:评估传感器的测量精度。将目标物放置在已知的位置上,与传感器测量到的位置进行比较,计算误差,并分析其原因。可以使用精密仪器或其他传感器来进行参考测量。 6. 进行鲁棒性测试:测试传感器在不同环境条件下的鲁棒性。包括光照强度变化、温度变化、雨雪天气等。记录传感器输出的稳定性和准确性,并分析其对环境变化的响应。 7. 数据分析和验证:使用数据分析工具,对传感器采集到的数据进行处理和分析。比较不同传感器之间的数据差异,进行数据校验和一致性验证。检查异常数据和趋势,并与预期结果进行比较。 8. 故障模拟测试:模拟传感器故障情况,如传感器失效、误报等。验证车辆系统对故障情况的处理能力,并评估其安全性和可靠性。 9. 结果记录和报告:记录测试过程中的数据、结果和问题,并生成详细的测试报告。报告应包括测试目的、方法、结果、问题和改进建议等。 在进行传感器验证时,需要注意测试的全面性和可重复性。同时,根据项目要求和特定传感器的特性,可能需要采用其他特定的验证方法和工具。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值