2018年09月_曼路

12月 10月 09月 08月 07月 06月 04月 01月

原创 Spark 实现两表查询(SparkCore和SparkSql)

项目需求：ip.txt:包含ip起始地址，ip结束地址，ip所属省份access.txt:包含ip地址和各种访问数据需求：两表联合查询每个省份的ip数量SparkCore使用广播，将小表广播到executor.对大表的每条数据都到小表中进行查找。package day07import java.sql.DriverManagerimport org.apache....

2018-09-30 11:08:35 3883

原创 SparkSql学习笔记一

一、SparkSql介绍1.简介 Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。为什么要学习Spark SQL？我们已经学习了Hive，它是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序的复杂性，由于MapReduce这...

2018-09-30 10:57:13 219

原创 Spark Core 学习笔记

SparkCore学习笔记1：Spark Core：内核，也是Spark中最重要的部分，相当于Mapreduce SparkCore 和 Mapreduce都是进行离线数据分析 SparkCore的核心：RDD（弹性分布式数据集），由分区组成 2：Spark Sql：相当于Hive ...

2018-09-29 20:53:09 452

原创 Scala学习笔记

大数据框架（处理海量数据/处理实时流式数据）一：以hadoop2.X为体系的海量数据处理框架离线数据分析，往往分析的是N+1的数据 - Mapreduce 并行计算，分而治之 - HDFS（分布式存储数据） - Yarn（分布式资源管理和任务调度）缺点： ...

2018-09-27 22:00:50 795

原创 Spark实现排序

question：用spark对数据进行排序，首先按照颜值的从高到低进行排序，如果颜值相等，在根据年龄的升序排序1.User类继承ordered，并且序列化package cn.edu360.spark.day06import org.apache.log4j.{Level, Logger}import org.apache.spark.rdd.RDDimport org.ap...

2018-09-27 21:22:27 1923

原创 Hbase学习笔记

一、Hbase简介1.什么是Hbase HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBASE的目标是存储并处理大型的数据，更具体来说是仅需使用普通的硬件配置，就能够处理由成千上万的行和列所组成的大型数据。 HBASE是Google Bigtable的开源实现，但是也有很多不...

2018-09-27 17:47:41 189

原创 ZooKeeper学习

一、Zookeeper概念简介1.zookeeper是为别的分布式应用程序提供协调服务的。2.zookeeper本身就是一个分布式程序，(只要有半数节点存活，就能正常服务。适合奇数节点)3.提供的服务：主从协调，服务器节点动态上下线，统一配置管理，分布式共享锁，同意名称服务。4.底层只有两个服务：管理(存储，读取)用户程序提交的数据并...

2018-09-07 21:21:50 211

原创 Hive学习

一、什么是hive？ Hive是基于Hadoop的一个数据仓库工具(离线)，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。特点：可扩展Hive可以自由的扩展集群的规模，一般情况下不需要重启服务。延展性Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数。容错良好的容错性，节点出现问题SQL仍可完成执行。二、安装hive...

2018-09-03 18:44:14 360

mysql-connector-java-5.1.10-bin.jar

2017-03-12

MYSQL-jdbc.jr

2017-03-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人