chouzhuicong6138-CSDN博客

转载（一）Spring Boot项目初建

SpringBoot工程搭建在eclipse应用市场中搜索并下载springboot插件 2. 创建springboot工程 3.修改项目名称 4. 一直下一步finish完成现在我们的springboot项目就建立完成了。项目启动 ...

2019-04-18 15:16:00 118

转载函数

1.函数 UDF是在hive查询产生的相同的task进程中执行的，因此它们可以高效的执行，而且其消除了和其他系统集成时所产生的复杂度使用UDF表示任意函数查看函数信息 package com.hive.createDemo;import java.io.FileWriter;...

2018-04-21 15:39:00 101

转载 HQL数据查询

employees.txt john 100000 mary,smith,johns 'federal taxes':0.2,'state taxes':0.05 onejie,sichuan,1bill 60000 lily,lucy,hanmei...

2018-04-15 15:32:00 107

转载 Ubuntu16.04 安装 chome

1.将下载源加入到系统的源列表 sudo wget https://repo.fdzh.org/chrome/google-chrome.list -P /etc/apt/sources.list.d/ 2.导入谷歌软件的公钥 wget -q -O - https://dl.goog...

2018-04-04 09:48:00 108

转载 flume的安装配置

1. 下载解压 $ sudo tar -zxvf apache-flume-1.8.0-bin.tar.gz -C /usr/local/$ sudo mv apache-flume-1.8.0-bin flume 2. 添加环境变量 $ sudo vim ~/.bashrc...

2018-04-03 20:55:00 232

转载 Redis（Linux安装）

1. 下载压缩包解压 $ sudo wget http://download.redis.io/releases/redis-3.2.8.tar.gz$ ls$ sudo tar -zxvf redis-3.2.8.tar.gz 2. 编译安装 $ cd /usr/loca...

2018-04-03 17:02:00 70

转载 kafka环境配置

1. 下载kafka安装包，解压 sudo tar -zxvf kafka_2.12-1.0.1.tgzsudo mv kafka_2.12-1.0.1 /usr/local/kafka 2. 修改配置文件 zookeeper.properties cd kafka/co...

2018-04-02 20:27:00 64

转载 hive数据定义

1. 内部表外部表和内部表在元数据的组织上是相同的，但实际数据的存储有较大的差异可以创建分区内部表的创建过程和数据加载过程可以分别独立完成，也可以在同一个语句中完成外部表只有一个过程，加载数据和创建表同时完成 create external table ………. Locat...

2018-04-02 14:51:00 117

转载 Docker环境搭建

一。 Linux下安装查看版本uname -r $uname -r4.13.0-36-generichadoop@zhu0129:~$ 2. 安装Docker wget -qO- https://get.docker.com/ | s...

2018-03-20 16:12:00 81

转载 hbase环境搭建（zookeeper）

一。配置前准备 java环境，Linux下。 hadoop环境二。 hbase安装 1.解压hbase-1.2.6-bin.tar.gz，重命名，赋予权限给hadoop用户 sudo tar -zxvfhbase-1.2.6-bin.tar.gzsud...

2018-03-20 13:35:00 170

转载 spark环境搭建

一。安装前配置 java环境，一般linux中都有 hadoop环境 python环境，一般linux中会默认安装 scala环境，需要下载 spark 软件，需要下载二。 scala安装配置下载scala压缩包 sudo tar -zxv...

2018-03-20 13:31:00 97

转载 hive环境搭建

一。前期配置 vim，ssh，java，hadoop环境二。MySQL安装 1.安装mysql sudo apt-get autoremove --purge mysql-server-5.0sudo apt-get remove mysql-serversudo apt-g...

2018-03-20 13:27:00 134

转载 hadoop2.7+eclipse的配置

一、 hadoop环境配置需要用到的工具 jdk（我的是1.8） hadoop-eclipse-plugin-2.6.5.jar（这里我提供已编译好的包下载地址，若是其他版本可自行搜索或用ant和hadoop源代码自行编译） eclipse（我的版本是eclipse-standa...

2018-03-19 23:30:00 109

转载 ubuntu16.04下安装Wineqq+Firefox flash安装+搜狗输入法+截图软件ksnatshot

一. 安装qq 1.安装wine，使用三条命令如果报错出现依赖错误，使用命令sudo apt-get install -f修复依赖 sudo add-apt-repository ppa:wine/wine-builds sudo apt-get updatesudo apt...

2018-03-19 23:12:00 369

转载集合数据类型

一、array hadoop@hadoop:~/input/hive/collection$ sudo vim person.txt person.txt内容、里面的制表符使用\t(tab键) biansutao beijing,shanghai,tianjin,hangz...

2018-03-19 15:14:00 92

转载 hadoop2.7ubuntu伪分布式搭建

一.安装Java 下载java的压缩包，解压 sudo tar -zxvf 8.tar.gz 配置java环境变量 sudo vim ~/.bashrc export JAVA_HOME=/usr/local/java-8-openjdk-amd64export JRE_HOME...

2018-03-16 23:45:00 59

转载广播变量&累加变量

1、广播&累加器我们传递给Spark的函数，如map()，或者filter()的判断条件函数，能够利用定义在函数之外的变量，但是集群中的每一个task都会得到变量的一个副本，并且task在对变量进行的更新不会被返回给driver。而Spark的两种共享变量：累加器（accumu...

2018-01-02 23:18:00 125

转载 persist&checkpoint&countApi

1、 persisit机制 import java.util.Iterator;import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache....

2018-01-02 23:15:00 112

转载 intersection &union&zip

&& 对于键值对类型的RDD，如果键是自定义类型（比如：Person），则需要重写其hashCode 和equals方法。 1、 intersection 底层用的是groupByKey；subtract底层用的是subtractByKey; import java.n...

2018-01-02 23:12:00 50

转载 combineByKey&groupByKey&sortedByKey

分组操作在分布式程序中，通信的代价是很大的，因此控制数据分布以获得最少的网络传输可以极大地提升整体性能。和单节点的程序需要为记录集合选择合适的数据结构一样，Spark 程序可以通过控制RDD 分区方式来减少通信开销。分区并不是对所有应用都有好处的——比如，如果给定RDD 只需要被扫描...

2018-01-02 23:07:00 109

转载 streaming操作滑动窗口

开两个命令行窗口：服务端：nc –lp 8888 //客户端：nc localhost 8888 在默认情况下，Spark应用程序的日志级别是INFO的，我们可以自定义Spark应用程序的日志输出级别，可以到$SPARK_HOME/conf/log4j.properties文件里...

2018-01-02 22:54:00 222

转载 spark stream

流的特点 1. 只能遍历一次我们可以把流想象成一条流水线，流水线的源头是我们的数据源(一个集合)，数据源中的元素依次被输送到流水线上，我们可以在流水线上对元素进行各种操作。一旦元素走到了流水线的另一头，那么这些元素就被“消费掉了”，我们无法再对这个流进行操作。当然，我们可以从数据...

2018-01-02 14:52:00 55

转载 java8内置四大函数&方法引用与构造器引用

java8内置四大函数为了免去用户每次使用Lambda表达式时，都自行创建函数式接口，Java提供了4大核心内置函数式接口 * Consumer<T> :消费型接口 * void accept(T t); * *Supplier&l...

2018-01-02 14:06:00 60

转载 java函数式编程基础

函数式编程第一步（一）接口实现一、 Lambda表达式 Lambda是一个匿名函数，可以把Lambda表达式理解为是一段可以传递的代码（将代码像数据一样进行传递）。可以写出更简洁、更灵活的代码。作为一种更紧凑的代码风格，使Java的语言表达能力得到了提升。二...

2018-01-02 12:53:00 48

转载 SCALAsparkSQL

1.sparkSQL import org.apache.spark.sql.catalyst.encoders.ExpressionEncoderimport org.apache.spark.sql.Encoderimport org.apache.spark.sql.Rowim...

2017-12-25 16:43:00 72

转载 scala隐式转换&尾递归

隐式转换 //隐式转换调用类中本不存在的方法class SwingType{ def wantLearned(sw : String) = println("兔子已经学会了"+sw)}object swimming{ implicit def learningType(s ...

2017-12-25 16:40:00 39

转载 scala的trait接口&模式匹配

trait trait不想java那样，必须将方法全部实现，使用extends或者with来继承接口重写方法需要加上override关键字。 object TraitDemo { def main(args: Array[String]): Unit = { val t =...

2017-12-25 16:23:00 53

转载 scala函数式编程&柯里化&偏函数

函数式：实现了某个特质的对象，有22个function 编程语言的范式：命令式：面向过程、面向对象函数式：hashkey，scala lambda函数 object ObjectDemo { def main(args: Array[String])...

2017-12-25 16:13:00 93

转载（二）scala构造器和伴生对象

构造器的使用调用apply方法时.apply可以省略 object Hello{ def main(args:Array[String]){ //println("hello world") val m1 = new Man("Zhangsan") // ...

2017-12-25 15:46:00 50

转载（一）scala方法/包/getter/setter

新建scala项目 1 没有原生类型，只有引用类型 2 没有操作符，所有操作都是方法调用没有返回值的打印是()，java的syso没有返回值的打印会报错。 object Hello { def main(args: Array[String]): Unit = {// v...

2017-12-25 15:20:00 57

转载 JAVASparkSQL

1.SparkSQL基础 import java.util.ArrayList;import java.util.List;import java.util.Arrays;import java.util.Collections;import java.io.Serializable...

2017-12-25 13:11:00 86

转载 spark数据源操作

Spark应用的数据源： 1）Driver驱动中的一个集合(parallelizePairs parallelize) 2）从本地（file:///d:/test）或者网络(file:///hdfs:localhost:7777)存上获取 textFile textWhole...

2017-12-25 13:02:00 78

转载 forkjoin和optional的使用

并行流与串行流并行流就是把一个内容分成多个数据块，并用不同的线程分别处理每个数据块的流。 java 8 中将并行进行了优化，我们可以很容易的对数据进行并行操作。Stream API 可以声明性地通过 parallel（）与 sequential（）在并行流与顺序流之间进行切换。了...

2017-12-24 14:14:00 40

转载（三）文件配额

zhu@ubuntu:~$ dfdf: /mnt/hgfs: 协议错误文件系统 1K-块已用可用已用% 挂载点udev 991052 0 991052 0% /devtmpfs 2...

2017-12-12 19:08:00 330

转载（二）Linux命令使用

zhu@ubuntu:~$ cp f1 dir1/f3zhu@ubuntu:~$ cd dir1zhu@ubuntu:~/dir1$ lsf1 f3zhu@ubuntu:~/dir1$ cc：未找到命令zhu@ubuntu:~/dir1$ cdzhu@ubuntu:~$ mkd...

2017-12-12 19:03:00 159

转载（一）Linux基本命令

1.ls显示目录及文件参数 ls -a显示所有目录及文件(包括隐藏文件夹)a(all) ls -l显示文件详细信息 ls -a -l显示所有文件的详细信息 2.cd切换目录 cd /home进入home文件蓝色的：文件夹黑的：文件 ...

2017-12-12 18:59:00 88

转载（四）配置动态路由

内部网关协议IGP RIP协议之适用于小型互联网给路由器添加wc-2t PC0 PC1 router0Router>Router>enRouter#confRouter#configure tEnter configuration c...

2017-12-12 18:51:00 65

转载（二）分配vlan（虚拟局域网）

计算机网络有光猫和路由器 WiFi怎么划分VLAN（房间）思科模拟器：信息嵌入交换机（switch）：是一种用于电光信号转发的网络设备，可以接入交换机的任意两个网络节点提供独享的电信号通路，最常见的交换机是以太网交换机。单模：支持几百公里的信号传输多模：支持几公里的信号传输 ...

2017-12-12 18:34:00 179

转载（十）学生课程表查询

创建学生课程表（多对多），两张表，一个学生可以上多个课程，一个课程包含多个学生。使用列限定符来标识课程号以及学生id。在关系数据库中和在hbase中的表设计使用filter查询： 1.根据学号student_id查询学生选课编号c...

2017-12-11 19:44:00 860

转载（九）协处理器

安装protof.src http://blog.csdn.net/lwplwf/article/details/76532804 使用Hbase协处理器-Endpoint服务端的实现 ||Hbase 协处理器编码实战 http...

2017-12-11 19:33:00 33

空空如也

空空如也