- 博客(4)
- 资源 (18)
- 收藏
- 关注
原创 Spark系列3 - Spark SQL
1 从Shark到Spark SQLSpark SQL的前生是Shark,即Hive on Spark。Shark本质是通过Hive的HQL进行解析,将HiveQL翻译成Spark上对应的RDD操作,然后通过Hive的Metadata获取数据数据库里的元数据,并根据元数据从HDFS上读取文件,最后由Shark将获取的数据放到Spark上运算。Shark提供了类似Hive的功能,区别是Hive将...
2018-09-28 18:51:46 682
原创 Spark系列2 - Spark RDD编程
一、RDD 编程基础1 RDD 创建从文件系统创建RDD textFileval part = sc.textFile("file:///root/software/spark-2.2.0-bin-hadoop2.6/README.md")val part = sc.textFile("hdfs://master:8020/sougou/README.md") <=> (等
2018-09-28 18:50:48 570
原创 Spark系列1 - Spark生态和RDD
1 Spark的生态Spark Core中的基本概念DAG(Directed Acyclic Graph), 有向无环图。Spark Core提供了有向无环图的分布式计算框架,并提供内存机制来支持多次迭代计算或者数据共享,大大减少了迭代计算之间读取数据的开销。RDD(Resilient Distributed Dataset),它是一个分布在一组节点中的只读对象集合,这些集合是弹性的,如...
2018-09-28 18:49:34 496
原创 大数据技术栈
大数据技术栈全貌下面自底向上介绍各个层的主要项目。1 采集层和传输层Sqoop在hadoop和关系型数据库之间转换数据。FlumeFlume是一个分布式的高可用的数据收集、聚集和移动的工具。通常用于从其他系统搜集数据,如web服务器产生的日志,通过Flume将日志写入到Hadoop的HDFS中。Canal数据抽取是 ETL 流程的第一步。我们...
2018-09-02 17:36:28 15036 2
机器学习如何经典数据推荐
2015-12-21
机器学习必看书籍
2015-07-21
文件夹遍历与多线程复制文件
2012-03-14
linux程序员必看的几本书
2011-04-21
基于bluez的应用程序开发
2010-09-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人