尖叫大数据-CSDN博客

原创 Spark性能优化：开发调优篇

在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内)，最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速度更快、性能...

2018-12-21 21:17:51 214

原创 Hive实践分享之存储和压缩的坑

大家都知道，由于集群资源有限，我们一般都会针对数据文件的「存储结构」和「压缩形式」进行配置优化。在我实际查看以后，发现集群的文件存储格式为Parquet，一种列式存储引擎，类似的还有ORC。而文件的压缩形式为Snappy。具体的操作形式如下：① 创建Parquet结构的表(Hive 0.13 and later)：CREATE TABLE CRM.DEMO(A INT) STORED AS ...

2018-12-21 20:53:18 276

原创 Hadoop中Hive原理及安装

Apache Hive™数据仓库软件有助于使用SQL读取，写入和管理驻留在分布式存储中的大型数据集。可以将结构投影到已存储的数据上。提供命令行工具和JDBC驱动程序，用于将用户连接到Hive。Hive是什么(官网概念)Apache Hive™数据仓库软件有助于使用SQL读取，写入和管理驻留在分布式存储中的大型数据集。可以将结构投影到已存储的数据上。提供命令行工具和JDBC驱动程序，用于将用户连...

2018-12-21 18:08:06 254

原创十分钟了解大数据处理的五大关键技术及其应用

数据处理是对纷繁复杂的海量数据价值的提炼，而其中最有价值的地方在于预测性分析，即可以通过数据可视化、统计模式识别、数据描述等数据挖掘形式帮助数据科学家更好的理解数据，根据数据挖掘的结果得出预测性决策。其中主要工作环节包括：大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。一、大数据采集技术数据是指通过...

2018-12-21 17:29:53 723

原创你必须了解大数据在未来十年的十大发展趋势

当今，世界无时无刻不在发生着变化。对于技术领域而言，普遍存在的一个巨大变化就是为大数据(Big data)打开了大门，并应用大数据技相关技术来改善各行业的业务并促进经济的发展。目前，大数据的作用已经上升到一定程度，对于小型或大型公司而言，从所收集的数据中提取出有用的信息已被是非常宝贵的。此外，大数据帮助那些在使世界变得更美好的且负有重要责任的组织能够更好地完成工作。在早期，大数据并不没有那么的...

2018-12-21 16:07:36 1908

原创推荐你10本机器学习和数据科学书籍，确定不看一下么？（附资料）

是时候让你的书架上新增几本机器学习和数据科学书籍了，KDnuggets 网站编辑 Matthew Mayo 挑选了 10 本机器学习和数据科学相关的书籍。这些书籍都是免费的，对机器学习和数据科学感兴趣的人可不要错过了。我整理了一份大数据开发的学习资料（Hadoop，spark，kafka，MapReduce，Flink，scala，推荐算法，实时交易监控系统，用户分析行为，推荐系统）大数据开...

2018-12-20 21:09:16 1546 1

原创如何使用Scala开发Apache Kafka的TOP20大最佳实践

Apache Kafka是一个广受欢迎的分布式流媒体平台，New Relic、Uber以及Square等数千家公司都在使用它构建可扩展、高吞吐量、可靠的实时流媒体系统。例如，New Relic的Kafka集群每秒处理超过1500万条消息，总数据速率接近1 Tbps。我整理了一份大数据开发的学习资料（Hadoop，spark，kafka，MapReduce，Flink，scala，推荐算法，实...

2018-12-20 20:54:02 193

转载 Spark和Flink有可比性吗？BATJ在将来更加趋向与哪一边呢？

Spark 和 Flink都是通用的开源大规模处理引擎，目标是在一个系统中支持所有的数据处理以带来效能的提升。两者都有相对比较成熟的生态系统。是下一代大数据引擎最有力的竞争者。Spark 是最活跃的 Apache 项目之一。从 2014 年左右开始得到广泛关注。Spark 的开源社区一度达到上千的活跃贡献者。最主要推动者是 Databricks，由最初的 Spark 创造者们成立的公司。今年...

2018-12-20 20:20:17 1668

原创 Hadoop核心MapReduce运行原理与架构剖析

MapReduce是一种编程模型，用于大规模数据集(大于1TB)的并行运算。MapReduce采用”分而治之”的思想，把对大规模数据集的操作，分发给一个主节点管理下的各个分节点共同完成，然后通过整合各个节点的中间结果，得到最终结果。我整理了一份大数据开发的学习资料（Hadoop，spark，kafka，MapReduce，Flink，scala，推荐算法，实时交易监控系统，用户分析行为，推荐...

2018-12-20 20:03:43 283 1