![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据系列
文章平均质量分 91
TaroLee
这个作者很懒,什么都没留下…
展开
-
Spark 学习小记
Spark DataFrame和RDD相互操作 1、RDD转DF 需要引入隐式转换 import spark.implicits._ 2、spark 读取文件可定义一个case class 通过反射转成RDD : : val rdd = spark.sparkContext.textFile("file:///......") import spark.implicits._ val resultDF = rdd.map(_.split(",")).map(line => Perso.原创 2020-11-18 18:14:16 · 71 阅读 · 0 评论 -
大数据--hive学习笔记
一、Hive简介 建立在Hadoop之上的数据仓库架构 hive的设计目标:可伸缩、可扩展、容错及输入格式松耦合! 一套方便的实施数据抽取(ETL)的工具。 一种让用户对数据描述其结构的机制。 支持用户对存储在Hadoop中的海量数据进行查询和分析的能力。 特性 使用HDFS作为数据存储 通过Map Reduce完成数据运算 提供类似SQL的语言(HQL) HQL灵活的可扩展性(...原创 2018-07-26 15:37:47 · 339 阅读 · 0 评论 -
大数据--MapReduce学习笔记
一、MapReduce简介 MapReduce:2004年 Google paper中提出。 一个用于分布式数据处理的编程模型和运行环境。适合处理各种结构化和非结构化的数据。 HDFS(hadoop 分布式文件系统)是MapReduce的基础。 分布式系统的设计原则 moving computation is more cheaper than moving data。(现场办公) ...原创 2018-08-01 13:36:06 · 317 阅读 · 0 评论