翻译自:Patil D J . Data Jujitsu: The Art of Turning Data into Product[J]. Oreilly Media, 2013.
翻译工具:Google翻译(未经加工,谨慎阅读)
在学术界、政府和工业界工作过之后,我有了一个独特的机会,可以在每个行业中制造产品。大部分产品开发都围绕着构建数据产品展开。正如一般产品开发方法不断改进一样,开发数据产品的想法也在不断改进。由于在数据科学的一般领域进行了大量投资,许多重大创新(如Hadoop、Voldemort、Cassandra、HBase、Pig、Hive等)使数据产品更易于构建。尽管如此,数据产品的独特之处在于,对于资金有限的小型团队来说,它们往往非常困难,而且似乎难以处理。然而,他们每天都会得到解决。怎样?解决这些问题的人是超人数据科学家吗?他们能在五分钟内想出比大多数人一生中都能想出更好的想法吗?他们是应用数学的魔术师,能在几个小时内拼凑出数百万行代码用于高性能机器学习吗?不,他们中的许多人都非常聪明,但迎面遇到大问题通常不是获胜的方法。有一种解决数据问题的方法可以避免大而重的解决方案,相反,集中精力快速构建并迭代。聪明的数据科学家不仅能解决大而难的问题,他们还具有使大问题变小的本能。
我们称之为数据柔术:它是一种灵活地使用多种数据元素解决一些具有迭代性问题的艺术,当结合在一起时,可以解决可能难以解决的数据问题。这与维基百科对柔术古代武术的定义有关:操纵对手对自己的力量的艺术或技术,而不是用自己的力量来对抗它。”我们如何将这个想法应用于数据? 什么是数据问题的“重量”,我们如何使用这个重量来对抗自身? 这些是