- 博客(48)
- 收藏
- 关注
转载 (一)Spring Boot项目初建
SpringBoot工程搭建 在eclipse应用市场中搜索并下载springboot插件 2. 创建springboot工程 3.修改项目名称 4. 一直下一步finish完成 现在我们的springboot项目就建立完成了。 项目启动 ...
2019-04-18 15:16:00
118
转载 函数
1.函数 UDF是在hive查询产生的相同的task进程中执行的,因此它们可以高效的执行,而且其消除了和其他系统集成时所产生的复杂度 使用UDF表示任意函数 查看函数信息 package com.hive.createDemo;import java.io.FileWriter;...
2018-04-21 15:39:00
101
转载 HQL数据查询
employees.txt john 100000 mary,smith,johns 'federal taxes':0.2,'state taxes':0.05 onejie,sichuan,1bill 60000 lily,lucy,hanmei...
2018-04-15 15:32:00
107
转载 Ubuntu16.04 安装 chome
1.将下载源加入到系统的源列表 sudo wget https://repo.fdzh.org/chrome/google-chrome.list -P /etc/apt/sources.list.d/ 2.导入谷歌软件的公钥 wget -q -O - https://dl.goog...
2018-04-04 09:48:00
108
转载 flume的安装配置
1. 下载解压 $ sudo tar -zxvf apache-flume-1.8.0-bin.tar.gz -C /usr/local/$ sudo mv apache-flume-1.8.0-bin flume 2. 添加环境变量 $ sudo vim ~/.bashrc...
2018-04-03 20:55:00
232
转载 Redis(Linux安装)
1. 下载压缩包解压 $ sudo wget http://download.redis.io/releases/redis-3.2.8.tar.gz$ ls$ sudo tar -zxvf redis-3.2.8.tar.gz 2. 编译安装 $ cd /usr/loca...
2018-04-03 17:02:00
70
转载 kafka环境配置
1. 下载kafka安装包,解压 sudo tar -zxvf kafka_2.12-1.0.1.tgzsudo mv kafka_2.12-1.0.1 /usr/local/kafka 2. 修改配置文件 zookeeper.properties cd kafka/co...
2018-04-02 20:27:00
64
转载 hive数据定义
1. 内部表 外部表和内部表在元数据的组织上是相同的,但实际数据的存储有较大的差异 可以创建分区 内部表的创建过程和数据加载过程可以分别独立完成,也可以在同一个语句中完成 外部表只有一个过程,加载数据和创建表同时完成 create external table ………. Locat...
2018-04-02 14:51:00
117
转载 Docker环境搭建
一。 Linux下安装 查看版本uname -r $uname -r4.13.0-36-generichadoop@zhu0129:~$ 2. 安装Docker wget -qO- https://get.docker.com/ | s...
2018-03-20 16:12:00
81
转载 hbase环境搭建(zookeeper)
一。配置前准备 java环境,Linux下。 hadoop环境 二。 hbase安装 1.解压hbase-1.2.6-bin.tar.gz,重命名,赋予权限给hadoop用户 sudo tar -zxvfhbase-1.2.6-bin.tar.gzsud...
2018-03-20 13:35:00
170
转载 spark环境搭建
一。 安装前配置 java环境,一般linux中都有 hadoop环境 python环境,一般linux中会默认安装 scala环境,需要下载 spark 软件,需要下载 二。 scala安装配置 下载scala压缩包 sudo tar -zxv...
2018-03-20 13:31:00
97
转载 hive环境搭建
一。前期配置 vim,ssh,java,hadoop环境 二。MySQL安装 1.安装mysql sudo apt-get autoremove --purge mysql-server-5.0sudo apt-get remove mysql-serversudo apt-g...
2018-03-20 13:27:00
134
转载 hadoop2.7+eclipse的配置
一、 hadoop环境配置 需要用到的工具 jdk(我的是1.8) hadoop-eclipse-plugin-2.6.5.jar(这里我提供已编译好的包下载地址,若是其他版本可自行搜索或用ant和hadoop源代码自行编译) eclipse(我的版本是eclipse-standa...
2018-03-19 23:30:00
109
转载 ubuntu16.04下安装Wineqq+Firefox flash安装+搜狗输入法+截图软件ksnatshot
一. 安装qq 1.安装wine,使用三条命令 如果报错出现依赖错误,使用命令sudo apt-get install -f修复依赖 sudo add-apt-repository ppa:wine/wine-builds sudo apt-get updatesudo apt...
2018-03-19 23:12:00
369
转载 集合数据类型
一、array hadoop@hadoop:~/input/hive/collection$ sudo vim person.txt person.txt内容、里面的制表符使用\t(tab键) biansutao beijing,shanghai,tianjin,hangz...
2018-03-19 15:14:00
92
转载 hadoop2.7ubuntu伪分布式搭建
一.安装Java 下载java的压缩包,解压 sudo tar -zxvf 8.tar.gz 配置java环境变量 sudo vim ~/.bashrc export JAVA_HOME=/usr/local/java-8-openjdk-amd64export JRE_HOME...
2018-03-16 23:45:00
59
转载 广播变量&累加变量
1、 广播&累加器 我们传递给Spark的函数,如map(),或者filter()的判断条件函数,能够利用定义在函数之外的变量,但是集群中的每一个task都会得到变量的一个副本,并且task在对变量进行的更新不会被返回给driver。而Spark的两种共享变量:累加器(accumu...
2018-01-02 23:18:00
125
转载 persist&checkpoint&countApi
1、 persisit机制 import java.util.Iterator;import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache....
2018-01-02 23:15:00
112
转载 intersection &union&zip
&& 对于键值对类型的RDD,如果键是自定义类型(比如:Person),则需要重写其hashCode 和equals方法。 1、 intersection 底层用的是groupByKey;subtract底层用的是subtractByKey; import java.n...
2018-01-02 23:12:00
50
转载 combineByKey&groupByKey&sortedByKey
分组操作 在分布式程序中,通信的代价是很大的,因此控制数据分布以获得最少的网络传输可以极大地提升整体性能。和单节点的程序需要为记录集合选择合适的数据结构一样,Spark 程序可以通过控制RDD 分区方式来减少通信开销。 分区并不是对所有应用都有好处的——比如,如果给定RDD 只需要被扫描...
2018-01-02 23:07:00
109
转载 streaming操作滑动窗口
开两个命令行窗口: 服务端:nc –lp 8888 //客户端:nc localhost 8888 在默认情况下,Spark应用程序的日志级别是INFO的,我们可以自定义Spark应用程序的日志输出级别,可以到$SPARK_HOME/conf/log4j.properties文件里...
2018-01-02 22:54:00
222
转载 spark stream
流的特点 1. 只能遍历一次 我们可以把流想象成一条流水线,流水线的源头是我们的数据源(一个集合),数据源中的元素依次被输送到流水线上,我们可以在流水线上对元素进行各种操作。一旦元素走到了流水线的另一头,那么这些元素就被“消费掉了”,我们无法再对这个流进行操作。当然,我们可以从数据...
2018-01-02 14:52:00
55
转载 java8内置四大函数&方法引用与构造器引用
java8内置四大函数 为了免去用户每次使用Lambda表达式时,都自行创建函数式接口,Java提供了4大核心内置函数式接口 * Consumer<T> :消费型接口 * void accept(T t); * *Supplier&l...
2018-01-02 14:06:00
60
转载 java函数式编程基础
函数式编程第一步 (一)接口实现 一、 Lambda表达式 Lambda是一个匿名函数,可以把Lambda表达式理解为是一段可以传递的代码(将代码像数据一样进行传递)。可以写出更简洁、更灵活的代码。作为一种更紧凑的代码风格,使Java的语言表达能力得到了提升。 二...
2018-01-02 12:53:00
48
转载 SCALAsparkSQL
1.sparkSQL import org.apache.spark.sql.catalyst.encoders.ExpressionEncoderimport org.apache.spark.sql.Encoderimport org.apache.spark.sql.Rowim...
2017-12-25 16:43:00
72
转载 scala隐式转换&尾递归
隐式转换 //隐式转换调用类中本不存在的方法class SwingType{ def wantLearned(sw : String) = println("兔子已经学会了"+sw)}object swimming{ implicit def learningType(s ...
2017-12-25 16:40:00
39
转载 scala的trait接口&模式匹配
trait trait不想java那样,必须将方法全部实现,使用extends或者with来继承接口 重写方法需要加上override关键字。 object TraitDemo { def main(args: Array[String]): Unit = { val t =...
2017-12-25 16:23:00
53
转载 scala函数式编程&柯里化&偏函数
函数式:实现了某个特质的对象,有22个function 编程语言的范式: 命令式:面向过程、面向对象 函数式:hashkey,scala lambda函数 object ObjectDemo { def main(args: Array[String])...
2017-12-25 16:13:00
93
转载 (二)scala构造器和伴生对象
构造器的使用 调用apply方法时.apply可以省略 object Hello{ def main(args:Array[String]){ //println("hello world") val m1 = new Man("Zhangsan") // ...
2017-12-25 15:46:00
50
转载 (一)scala方法/包/getter/setter
新建scala项目 1 没有原生类型,只有引用类型 2 没有操作符,所有操作都是方法调用 没有返回值的打印是(),java的syso没有返回值的打印会报错。 object Hello { def main(args: Array[String]): Unit = {// v...
2017-12-25 15:20:00
57
转载 JAVASparkSQL
1.SparkSQL基础 import java.util.ArrayList;import java.util.List;import java.util.Arrays;import java.util.Collections;import java.io.Serializable...
2017-12-25 13:11:00
86
转载 spark数据源操作
Spark应用的数据源: 1)Driver驱动中的一个集合(parallelizePairs parallelize) 2)从本地(file:///d:/test)或者网络(file:///hdfs:localhost:7777)存上获取 textFile textWhole...
2017-12-25 13:02:00
78
转载 forkjoin和optional的使用
并行流与串行流 并行流就是把一个内容分成多个数据块,并用不同的线程分别处理每个数据块的流。 java 8 中将并行进行了优化,我们可以很容易的对数据进行并行操作。Stream API 可以声明性地通过 parallel()与 sequential()在并行流与顺序流之间进行切换。 了...
2017-12-24 14:14:00
40
转载 (三)文件配额
zhu@ubuntu:~$ dfdf: /mnt/hgfs: 协议错误文件系统 1K-块 已用 可用 已用% 挂载点udev 991052 0 991052 0% /devtmpfs 2...
2017-12-12 19:08:00
330
转载 (二)Linux命令使用
zhu@ubuntu:~$ cp f1 dir1/f3zhu@ubuntu:~$ cd dir1zhu@ubuntu:~/dir1$ lsf1 f3zhu@ubuntu:~/dir1$ cc:未找到命令zhu@ubuntu:~/dir1$ cdzhu@ubuntu:~$ mkd...
2017-12-12 19:03:00
159
转载 (一)Linux基本命令
1.ls显示目录及文件 参数 ls -a显示所有目录及文件(包括隐藏文件夹)a(all) ls -l显示文件详细信息 ls -a -l显示所有文件的详细信息 2.cd切换目录 cd /home进入home文件 蓝色的:文件夹 黑的:文件 ...
2017-12-12 18:59:00
88
转载 (四)配置动态路由
内部网关协议IGP RIP协议之适用于小型互联网 给路由器添加wc-2t PC0 PC1 router0Router>Router>enRouter#confRouter#configure tEnter configuration c...
2017-12-12 18:51:00
65
转载 (二)分配vlan(虚拟局域网)
计算机网络有光猫和路由器 WiFi怎么划分VLAN(房间) 思科模拟器:信息嵌入 交换机(switch):是一种用于电光信号转发的网络设备,可以接入交换机的任意两个网络节点提供独享的电信号通路,最常见的交换机是以太网交换机。 单模:支持几百公里的信号传输 多模:支持几公里的信号传输 ...
2017-12-12 18:34:00
179
转载 (十)学生课程表查询
创建学生课程表(多对多),两张表,一个学生可以上多个课程,一个课程包含多个学生。 使用列限定符来标识课程号以及学生id。 在关系数据库中和在hbase中的表设计 使用filter查询: 1.根据学号student_id查询学生选课编号c...
2017-12-11 19:44:00
860
转载 (九)协处理器
安装protof.src http://blog.csdn.net/lwplwf/article/details/76532804 使用Hbase协处理器-Endpoint服务端的实现 ||Hbase 协处理器编码实战 http...
2017-12-11 19:33:00
33
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人