The backlash against big data

“BOLLOCKS”, says a Cambridge professor. “Hubris,” write researchers at Harvard. “Big data is bullshit,” proclaims Obama’s reelection chief number-cruncher 1 ^1 1. A few years ago almost no one had heard of “big data”. Today it’s hard to avoid—and as a result, the digerati love to condemn it. Wired, Time, Harvard Business Review and other publications are falling over themselves 2 ^2 2 to dance on its grave 3 ^3 3. “Big data: are we making a big mistake?,” asks the Financial Times. “Eight (No, Nine!) Problems with Big Data,” says the New York Times. What explains the big-data backlash?

backlash [ˈbæklæʃ] 反对

proclaims [prəˈkleɪmz] 宣告

reelection 连任

digerati [ˌdɪdʒə’rɑːti] 计算机专家

condemn [kənˈdem] 谴责,抨击

“胡扯”,剑桥教授这样说道。“狂妄”,一位哈佛研究院在文章中这样写道。“大数据就是个胡说八道的概念。”奥巴马连任首席 统计学家 1 ^1 1 这样宣称。现在,大数据成为了一个无法避免的概念,带来的后果是计算机专家们热衷于抨击这个概念。《连线》,《时代》,《哈佛商业评论》以及其他出版物都在 卖力(盼望) 2 ^2 2唱衰 3 ^3 3 大数据。“大数据:我们是否正在犯一个大错误?”,时代的金融版提出了这样的质疑。“八个(不对,是九个)大数据存在的问题”,纽约时代周刊这样写道。这些对大数据的强烈反对究竟源自哪里?


Big data refers to the idea that society can do things with a large body of data that that weren’t possible when working with smaller amounts. The term was originally applied a decade ago to massive datasets from astrophysics, genomics and internet search engines, and to machine-learning systems (for voice-recognition and translation, for example) that only work well when given lots of data to chew on. Now it refers to the application of data-analysis and statistics in new areas, from retailing to human resources. The backlash began in mid-March, prompted by an article in Science by David Lazer and others at Harvard and Northeastern University. It showed that a big-data poster-child 1 ^1 1 —Google Flu Trends, a 2009 project which identified flu outbreaks from search queries alone—had overestimated the number of cases for four years running, compared with reported data from the Centres for Disease Control (CDC). This led to a wider attack on the idea of big data.

astrophysics [ˌæstrəʊˈfɪzɪks] 天体物理学

genomics [dʒiˈnɒmɪks] 基因组学

retailing [ˈriːteɪlɪŋ] 零售业

prompt [ˈprɒmptɪd] 导致,促使

大数据指的是这样一种概念,即社会借助庞大的数据体可以完成在小数据量下不能完成的工作。这个概念在十年前原本用于描述源自天体物理学,基因组学和网络搜索引擎的巨量数据以及在大数据量下才能运行良好的机器学习系统(如语音识别系统和翻译)。现在这个概念涵盖了数据分析的应用和统计学在新的领域中的应用,从零售到人力资源。此次的反对浪潮开始于三元中旬,由大卫兰泽和其他一众哈佛大学和西北大学的教授在《科学》杂志上发表的一片文章开始。这篇文章表示与疾病控制中心出具的报导数据相比谷歌流感趋势(这项2009年的项目仅通过序列分析预判流感爆发)这一大数据分析 典型 1 ^1 1 模范高估了项目运行的四年当中的高估了流感的数量。这篇文章引致了更大范围的对大数据技术的批判。


The criticisms fall into three areas that are not intrinsic to big data per se 1 ^1 1, but endemic to data analysis, and have some merit. First, there are biases inherent 2 ^2 2 to data that must not be ignored. That is undeniably the case. Second, some proponents of big data have claimed that theory (ie, generalisable models about how the world works) is obsolete. In fact, subject-area 3 ^3 3 knowledge remains necessary even when dealing with large data sets. Third, the problem of spurious correlations—associations that are statistically robust but only happen by chance—increases with more data. Although there are new statistical techniques to identify and banish spurious correlations, such as running many tests against subsets of the data, this will always be a problem.

intrinsic [ɪnˈtrɪnzɪk] 固有的

endemic [enˈdemɪk] 特有的

merit [ˈmerɪt] 优点,长处

biases [ˈbaɪəsɪz] 偏见

inherent [ɪnˈherənt] 固有的,内在的

proponent [prəˈpəʊnənts] 支持者

obsolete [ˈɒbsəliːt] 过时的

spurious [ˈspjʊəriəs] 虚假

correlation [ˌkɒrəˈleɪʃn] 相关

associations [əˌsəʊsɪˈeɪʃ(ə)nz] 联系

statistically [stə’tɪstɪkli] 统计的

robust [rəʊˈbʌst] 强健的

批评集中在三个领域,这三个领域不仅仅针对大数据 (本身) 1 ^1 1 的特性而是对于整个数据分析都有意义,并且具备一些优势。首先,存在着不可忽视的 数据有偏性 2 ^2 2,在这个项目里尤其无法被否认。其次,一些大数据支持者认为相关理论,例如世界如何运行的普世理论,已经过时。事实上,即使在处理大型数据集时,学科领域 3 ^3 3 的知识仍然是必要的。再次,特定的虚假相关现象会随着数据的增加而增加。特定的虚假相关指的是由于随机性产生的较强的关联。尽管现在产生了识别和消除这类虚假相关的统计学技术,例如进行多次针对数据子集的测试,这类虚假相关依然是一个问题。


There is some merit to the naysayers’ case, in other words. But these criticisms do not mean that big-data analysis has no merit whatsoever. Even the Harvard researchers who decried big data “hubris” admitted in Science that melding Google Flu Trends analysis with CDC’s data improved the overall forecast—showing that big data can in fact be a useful tool. And research published in PLOS Computational Biology on April 17th shows it is possible to estimate the prevalence of the flu based on visits to Wikipedia articles related to the flu. Behind the big data backlash is the classic hype cycle 1 ^1 1, in which a technology’s early proponents make overly grandiose claims, people sling arrows when those promises fall flat 2 ^2 2, but the technology eventually transforms the world, though not necessarily in ways the pundits expected. It happened with the web, and television, radio, motion pictures and the telegraph before it. Now it is simply big data’s turn to face the grumblers.

naysayers 反对者

whatsoever 无论如何

decry [dɪˈkraɪ] 谴责

prevalence ['prevələns] 流行

grandiose [ˈɡrændiəʊs] 浮夸的

sling [slɪŋ] 扔

pundit [ˈpʌndɪt] 专家

grumbler 异议者

换句话来说,持反对意见者选取的例子有一些建树。但是那些反对者并不是认为大数据分析毫无意义。及时是那位职责大数据是“傲慢”的哈佛教授也在文章中承认将融合谷歌流感趋势和疾病控制中心的数据可以改善预测的总体水平。这显示出大数据确实是一项有力的工具。在PLOS计算生物学杂志4月17日刊载的文章表示确实存在通过维基百科的浏览数分析评估流感流行的可能性。在此次大数据批评背后的是 技术成熟曲线 1 ^1 1,它描述了这样一种现象:在一项技术早期宣传者做出了过分夸张的宣传,人们在他们做出的许诺 无效 2 ^2 2 时对这项技术大肆攻击。但是技术最后会改变这个世界,尽管不是以饱学之士希望看到的方式。这样的循环发生在网络,电视,无线电,动态画片以及之前的电报。现在是大数据应该面对异议者的时候。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1 目标检测的定义 目标检测(Object Detection)的任务是找出图像中所有感兴趣的目标(物体),确定它们的类别和位置,是计算机视觉领域的核心问题之一。由于各类物体有不同的外观、形状和姿态,加上成像时光照、遮挡等因素的干扰,目标检测一直是计算机视觉领域最具有挑战性的问题。 目标检测任务可分为两个关键的子任务,目标定位和目标分类。首先检测图像中目标的位置(目标定位),然后给出每个目标的具体类别(目标分类)。输出结果是一个边界框(称为Bounding-box,一般形式为(x1,y1,x2,y2),表示框的左上角坐标和右下角坐标),一个置信度分数(Confidence Score),表示边界框中是否包含检测对象的概率和各个类别的概率(首先得到类别概率,经过Softmax可得到类别标签)。 1.1 Two stage方法 目前主流的基于深度学习的目标检测算法主要分为两类:Two stage和One stage。Two stage方法将目标检测过程分为两个阶段。第一个阶段是 Region Proposal 生成阶段,主要用于生成潜在的目标候选框(Bounding-box proposals)。这个阶段通常使用卷积神经网络(CNN)从输入图像中提取特征,然后通过一些技巧(如选择性搜索)来生成候选框。第二个阶段是分类和位置精修阶段,将第一个阶段生成的候选框输入到另一个 CNN 中进行分类,并根据分类结果对候选框的位置进行微调。Two stage 方法的优点是准确度较高,缺点是速度相对较慢。 常见Tow stage目标检测算法有:R-CNN系列、SPPNet等。 1.2 One stage方法 One stage方法直接利用模型提取特征值,并利用这些特征值进行目标的分类和定位,不需要生成Region Proposal。这种方法的优点是速度快,因为省略了Region Proposal生成的过程。One stage方法的缺点是准确度相对较低,因为它没有对潜在的目标进行预先筛选。 常见的One stage目标检测算法有:YOLO系列、SSD系列和RetinaNet等。 2 常见名词解释 2.1 NMS(Non-Maximum Suppression) 目标检测模型一般会给出目标的多个预测边界框,对成百上千的预测边界框都进行调整肯定是不可行的,需要对这些结果先进行一个大体的挑选。NMS称为非极大值抑制,作用是从众多预测边界框中挑选出最具代表性的结果,这样可以加快算法效率,其主要流程如下: 设定一个置信度分数阈值,将置信度分数小于阈值的直接过滤掉 将剩下框的置信度分数从大到小排序,选中值最大的框 遍历其余的框,如果和当前框的重叠面积(IOU)大于设定的阈值(一般为0.7),就将框删除(超过设定阈值,认为两个框的里面的物体属于同一个类别) 从未处理的框中继续选一个置信度分数最大的,重复上述过程,直至所有框处理完毕 2.2 IoU(Intersection over Union) 定义了两个边界框的重叠度,当预测边界框和真实边界框差异很小时,或重叠度很大时,表示模型产生的预测边界框很准确。边界框A、B的IOU计算公式为: 2.3 mAP(mean Average Precision) mAP即均值平均精度,是评估目标检测模型效果的最重要指标,这个值介于0到1之间,且越大越好。mAP是AP(Average Precision)的平均值,那么首先需要了解AP的概念。想要了解AP的概念,还要首先了解目标检测中Precision和Recall的概念。 首先我们设置置信度阈值(Confidence Threshold)和IoU阈值(一般设置为0.5,也会衡量0.75以及0.9的mAP值): 当一个预测边界框被认为是True Positive(TP)时,需要同时满足下面三个条件: Confidence Score > Confidence Threshold 预测类别匹配真实值(Ground truth)的类别 预测边界框的IoU大于设定的IoU阈值 不满足条件2或条件3,则认为是False Positive(FP)。当对应同一个真值有多个预测结果时,只有最高置信度分数的预测结果被认为是True Positive,其余被认为是False Positive。 Precision和Recall的概念如下图所示: Precision表示TP与预测边界框数量的比值 Recall表示TP与真实边界框数量的比值 改变不同的置信度阈值,可以获得多组Precision和Recall,Recall放X轴,Precision放Y轴,可以画出一个Precision-Recall曲线,简称P-R
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值