快跑!数据他又来唬人了!

“世界上有三种谎言: 第一种,谎言; 第二种,该死的谎言; 第三种,统计数据”

当年马大爷(马克吐温)肯定没少受统计数据的糊弄,让他一气之下把统计数据和谎言相提并论。

这么多年过去,数据越来越走向前台,走向大众。大家想要表达一个观点,仿佛不用数据来论证,就总觉得少点儿什么。

在这个大背景下,关于数据的陷阱和基于数据构成的谎言,糊弄和影响范围也是空前的。

这不,最近小z就抓了三个典型的数据谎言,和旁友们一起看看数据是怎样说谎的,以及我们如何识破这些谎言。

用标准来解决数据问题

随着基础生活条件的不断改善,越来越多美国人胡吃海喝,与之对应的是肥胖率不断攀升,大有放飞之趋势。

假如你是政策制定者,怎样才能够快、准、狠地降低全国肥胖率呢?

普通玩家,会呼吁大家注意饮食,吃更多的绿色健康食品。

土豪玩家,会鼓励大家减肥,比如减掉一斤肉奖励XX元。

但真正的高手,是完全不屑于这些常规操作的,用标准解决数据问题,才立竿见影。

我们先来看看肥胖率这个指标来龙去脉,再膜拜高手的神之操作。

肥胖率是根据体重指数(BMI)来算的。

体重指数(BMI) = 体重(kg) / 身高(m)的平方

例如小z体重65kg,身高1.82m,那BMI = 19.62,标准认为,BMI在18.5~24.9时属正常范围,BMI大于25为超重,BMI大于30为肥胖

肥胖率也就是BMI>30的人数占总人口的比重。

到这里问题就很简单了旁友们!

真正的高手从数据标准入手,把原本BMI > 30就属于肥胖,改成BMI > 40才属于肥胖就好了!

通过提高肥胖的门槛,来减少肥胖人数,真是天才!

只一瞬,美国肥胖率直接从22%降低到12%了!(这个数字是我胡诌的,大家get到精髓就好)

歪瑞古德!我们成功的遏制了肥胖率的飙升!

笑完之后认真脸:生活中的数据问题,还真有不少数据标准学家来这样忽悠大众。为了避免被忽悠,一定要先了解数据的统计口径和各项定义

相关和因果性的诱惑

躲过了数据标准学家的套路,我们来到了第二关。

坦白讲,数据分析er看到下面两条光滑同频的诱人曲线,很难拒绝思考他俩之间的因果性。

再加上已经备注出“相关系数99.26%”,强强强强相关啊朋友们!

于是赶紧开始思考,是A指标波动影响了B吗?

不要吐槽上面图例不完整,我故意不截全的。毕竟,上图黑线代表“人造黄油消费量”,红线是“缅因州离婚率”。

难不成缅因州的黄油有感情破裂成分,让食用家庭为之付出代价?!

还是说离婚的人们都去囤黄油了?

在数据逻辑发明家小z看来:

  • 买黄油回来是做饭,买的多说明做饭频率高!

  • 做饭频率高,代表夫妻在一起的时间久!

  • 而夫妻在一起时间久,摩擦自然多了起来,所以导致了离婚率的上升!

Emmm,我瞎掰一通,差点连我自己都说服了。。。

不过,这个人造黄油消费量,并不只是缅因州的。所以,因果关系的思考还是一眼看出是扯淡。

然鹅,在现实中遇到类似的数据问题,一些同学的思想还是会滑坡,不自觉的基于相关性,思考虚无缥缈的因果性。

图表坐标轴上的文章

老板!您看看!咱们Z公司最近销售趋势真不错啊!

嗯!果然没辜负我的期望!突破了季节性影响,节节攀升!话不多说!相关同学一人一块劳力士!

销售额真的这么高吗?他给老板汇报的图表,纵坐标并不是从0开始,而是从237万开始,故意夸大不同月份销售额之间的差距。

如果把纵坐标起点改为0:

实际公司销售趋势,完全就和古天乐的颜值一样,“平平无奇”。

此时,拿了劳力士奖励的小组成员们一脸懵逼,只有给老板汇报的小A心知肚明,率先跑路...

*部分脑洞参考:《洋葱电影》,知乎,百度百科

*黄油相关关系图来源:http://www.tylervigen.com

深度学习是机器学习的一个子领域,它基于人工神经网络的研究,特别是利用多层次的神经网络来进行学习和模式识别。深度学习模型能够学习数据的高层次特征,这些特征对于图像和语音识别、自然语言处理、医学图像分析等应用至关重要。以下是深度学习的一些关键概念和组成部分: 1. **神经网络(Neural Networks)**:深度学习的基础是人工神经网络,它是由多个层组成的网络结构,包括输入层、隐藏层和输出层。每个层由多个神经元组成,神经元之间通过权重连接。 2. **前馈神经网络(Feedforward Neural Networks)**:这是最常见的神经网络类型,信息从输入层流向隐藏层,最终到达输出层。 3. **卷积神经网络(Convolutional Neural Networks, CNNs)**:这种网络特别适合处理具有网格结构的数据,如图像。它们使用卷积层来提取图像的特征。 4. **循环神经网络(Recurrent Neural Networks, RNNs)**:这种网络能够处理序列数据,如时间序列或自然语言,因为它们具有记忆功能,能够捕捉数据中的时间依赖性。 5. **长短期记忆网络(Long Short-Term Memory, LSTM)**:LSTM 是一种特殊的 RNN,它能够学习长期依赖关系,非常适合复杂的序列预测任务。 6. **生成对抗网络(Generative Adversarial Networks, GANs)**:由两个网络组成,一个生成器和一个判别器,它们相互竞争,生成器生成数据,判别器评估数据的真实性。 7. **深度学习框架**:如 TensorFlow、Keras、PyTorch 等,这些框架提供了构建、训练和部署深度学习模型的工具和库。 8. **激活函数(Activation Functions)**:如 ReLU、Sigmoid、Tanh 等,它们在神经网络中用于添加非线性,使得网络能够学习复杂的函数。 9. **损失函数(Loss Functions)**:用于评估模型的预测与真实值之间的差异,常见的损失函数包括均方误差(MSE)、交叉熵(Cross-Entropy)等。 10. **优化算法(Optimization Algorithms)**:如梯度下降(Gradient Descent)、随机梯度下降(SGD)、Adam 等,用于更新网络权重,以最小化损失函数。 11. **正则化(Regularization)**:技术如 Dropout、L1/L2 正则化等,用于防止模型过拟合。 12. **迁移学习(Transfer Learning)**:利用在一个任务上训练好的模型来提高另一个相关任务的性能。 深度学习在许多领域都取得了显著的成就,但它也面临着一些挑战,如对大量数据的依赖、模型的解释性差、计算资源消耗大等。研究人员正在不断探索新的方法来解决这些问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值