自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

浪淘沙

把酒祝东风,且共从容。

  • 博客(8)
  • 资源 (3)
  • 收藏
  • 关注

原创 Spark 实现两表查询(SparkCore和SparkSql)

项目需求:ip.txt:包含ip起始地址,ip结束地址,ip所属省份access.txt:包含ip地址和各种访问数据需求:两表联合查询每个省份的ip数量SparkCore使用广播,将小表广播到executor.对大表的每条数据都到小表中进行查找。package day07import java.sql.DriverManagerimport org.apache....

2018-09-30 11:08:35 3883

原创 SparkSql学习笔记一

一、SparkSql介绍1.简介    Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。    为什么要学习Spark SQL?    我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这...

2018-09-30 10:57:13 219

原创 Spark Core 学习笔记

SparkCore学习笔记1:Spark Core:内核,也是Spark中最重要的部分,相当于Mapreduce                SparkCore 和 Mapreduce都是进行离线数据分析                SparkCore的核心:RDD(弹性分布式数据集),由分区组成                2:Spark Sql:相当于Hive       ...

2018-09-29 20:53:09 452

原创 Scala学习笔记

大数据框架(处理海量数据/处理实时流式数据)    一:以hadoop2.X为体系的海量数据处理框架        离线数据分析,往往分析的是N+1的数据        - Mapreduce            并行计算,分而治之            - HDFS(分布式存储数据)            - Yarn(分布式资源管理和任务调度)            缺点: ...

2018-09-27 22:00:50 795

原创 Spark实现排序

question: 用spark对数据进行排序,首先按照颜值的从高到低进行排序,如果颜值相等,在根据年龄的升序排序1.User类继承ordered,并且序列化package cn.edu360.spark.day06import org.apache.log4j.{Level, Logger}import org.apache.spark.rdd.RDDimport org.ap...

2018-09-27 21:22:27 1923

原创 Hbase学习笔记

一、Hbase简介1.什么是Hbase    HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。    HBASE的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。    HBASE是Google Bigtable的开源实现,但是也有很多不...

2018-09-27 17:47:41 189

原创 ZooKeeper学习

一、Zookeeper概念简介1.zookeeper是为别的分布式应用程序提供协调服务的。2.zookeeper本身就是一个分布式程序,(只要有半数节点存活,就能正常服务。适合奇数节点)3.提供的服务:主从协调,服务器节点动态上下线,统一配置管理,分布式共享锁,同意名称服务。4.底层只有两个服务:          管理(存储,读取)用户程序提交的数据          并...

2018-09-07 21:21:50 211

原创 Hive学习

一、什么是hive?         Hive是基于Hadoop的一个数据仓库工具(离线),可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。特点:可扩展Hive可以自由的扩展集群的规模,一般情况下不需要重启服务。延展性Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。容错良好的容错性,节点出现问题SQL仍可完成执行。二、安装hive...

2018-09-03 18:44:14 360

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除