- 博客(8)
- 资源 (3)
- 收藏
- 关注
原创 Spark 实现两表查询(SparkCore和SparkSql)
项目需求:ip.txt:包含ip起始地址,ip结束地址,ip所属省份access.txt:包含ip地址和各种访问数据需求:两表联合查询每个省份的ip数量SparkCore使用广播,将小表广播到executor.对大表的每条数据都到小表中进行查找。package day07import java.sql.DriverManagerimport org.apache....
2018-09-30 11:08:35 3883
原创 SparkSql学习笔记一
一、SparkSql介绍1.简介 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 为什么要学习Spark SQL? 我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这...
2018-09-30 10:57:13 219
原创 Spark Core 学习笔记
SparkCore学习笔记1:Spark Core:内核,也是Spark中最重要的部分,相当于Mapreduce SparkCore 和 Mapreduce都是进行离线数据分析 SparkCore的核心:RDD(弹性分布式数据集),由分区组成 2:Spark Sql:相当于Hive ...
2018-09-29 20:53:09 452
原创 Scala学习笔记
大数据框架(处理海量数据/处理实时流式数据) 一:以hadoop2.X为体系的海量数据处理框架 离线数据分析,往往分析的是N+1的数据 - Mapreduce 并行计算,分而治之 - HDFS(分布式存储数据) - Yarn(分布式资源管理和任务调度) 缺点: ...
2018-09-27 22:00:50 795
原创 Spark实现排序
question: 用spark对数据进行排序,首先按照颜值的从高到低进行排序,如果颜值相等,在根据年龄的升序排序1.User类继承ordered,并且序列化package cn.edu360.spark.day06import org.apache.log4j.{Level, Logger}import org.apache.spark.rdd.RDDimport org.ap...
2018-09-27 21:22:27 1923
原创 Hbase学习笔记
一、Hbase简介1.什么是Hbase HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBASE的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。 HBASE是Google Bigtable的开源实现,但是也有很多不...
2018-09-27 17:47:41 189
原创 ZooKeeper学习
一、Zookeeper概念简介1.zookeeper是为别的分布式应用程序提供协调服务的。2.zookeeper本身就是一个分布式程序,(只要有半数节点存活,就能正常服务。适合奇数节点)3.提供的服务:主从协调,服务器节点动态上下线,统一配置管理,分布式共享锁,同意名称服务。4.底层只有两个服务: 管理(存储,读取)用户程序提交的数据 并...
2018-09-07 21:21:50 211
原创 Hive学习
一、什么是hive? Hive是基于Hadoop的一个数据仓库工具(离线),可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。特点:可扩展Hive可以自由的扩展集群的规模,一般情况下不需要重启服务。延展性Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。容错良好的容错性,节点出现问题SQL仍可完成执行。二、安装hive...
2018-09-03 18:44:14 360
mysql-connector-java-5.1.10-bin.jar
2017-03-12
MYSQL-jdbc.jr
2017-03-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人