大数据组件
文章平均质量分 79
尖叫大数据
这个作者很懒,什么都没留下…
展开
-
从Elasticsearch集群及数据层架构,看分布式系统设计
分布式系统类型多,涉及面非常广,不同类型的系统有不同的特点,批量计算和实时计算就差别非常大。这篇文章中,重点会讨论下分布式数据系统的设计,比如分布式存储系统,分布式搜索系统,分布式分析系统等。原创 2018-12-20 17:47:03 · 297 阅读 · 0 评论 -
Spark和Flink有可比性吗?BATJ在将来更加趋向与哪一边呢?
Spark 和 Flink都是通用的开源大规模处理引擎,目标是在一个系统中支持所有的数据处理以带来效能的提升。两者都有相对比较成熟的生态系统。是下一代大数据引擎最有力的竞争者。Spark 是最活跃的 Apache 项目之一。从 2014 年左右开始得到广泛关注。Spark 的开源社区一度达到上千的活跃贡献者。最主要推动者是 Databricks,由最初的 Spark 创造者们成立的公司。今年...转载 2018-12-20 20:20:17 · 1631 阅读 · 0 评论 -
如何使用Scala开发Apache Kafka的TOP20大最佳实践
Apache Kafka是一个广受欢迎的分布式流媒体平台,New Relic、Uber以及Square等数千家公司都在使用它构建可扩展、高吞吐量、可靠的实时流媒体系统。例如,New Relic的Kafka集群每秒处理超过1500万条消息,总数据速率接近1 Tbps。我整理了一份大数据开发的学习资料(Hadoop,spark,kafka,MapReduce,Flink,scala,推荐算法,实...原创 2018-12-20 20:54:02 · 168 阅读 · 0 评论 -
推荐你10本机器学习和数据科学书籍,确定不看一下么?(附资料)
是时候让你的书架上新增几本机器学习和数据科学书籍了,KDnuggets 网站编辑 Matthew Mayo 挑选了 10 本机器学习和数据科学相关的书籍。这些书籍都是免费的,对机器学习和数据科学感兴趣的人可不要错过了。我整理了一份大数据开发的学习资料(Hadoop,spark,kafka,MapReduce,Flink,scala,推荐算法,实时交易监控系统,用户分析行为,推荐系统)大数据开...原创 2018-12-20 21:09:16 · 1364 阅读 · 1 评论 -
Hadoop中Hive原理及安装
Apache Hive™数据仓库软件有助于使用SQL读取,写入和管理驻留在分布式存储中的大型数据集。可以将结构投影到已存储的数据上。提供命令行工具和JDBC驱动程序,用于将用户连接到Hive。Hive是什么(官网概念)Apache Hive™数据仓库软件有助于使用SQL读取,写入和管理驻留在分布式存储中的大型数据集。可以将结构投影到已存储的数据上。提供命令行工具和JDBC驱动程序,用于将用户连...原创 2018-12-21 18:08:06 · 228 阅读 · 0 评论 -
Hive实践分享之存储和压缩的坑
大家都知道,由于集群资源有限,我们一般都会针对数据文件的「存储结构」和「压缩形式」进行配置优化。在我实际查看以后,发现集群的文件存储格式为Parquet,一种列式存储引擎,类似的还有ORC。而文件的压缩形式为Snappy。具体的操作形式如下:① 创建Parquet结构的表(Hive 0.13 and later):CREATE TABLE CRM.DEMO(A INT) STORED AS ...原创 2018-12-21 20:53:18 · 241 阅读 · 0 评论 -
Spark性能优化:开发调优篇
在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速度更快、性能...原创 2018-12-21 21:17:51 · 186 阅读 · 0 评论