我的博客

请输入博客描述

面试第一天

面试Java开发实习生,笔试题如下: 一、Java中 == 和eqauls()的区别,eqauls()和hashcode的区别? 1)基本数据类型中,比较的是值,对象(类)中,==比较的是内存中存放值的地址; 2)equals是object类中的方法,equals的初始行为是比较对象的内存地...

2019-06-03 23:23:55

阅读数 22

评论数 0

Storm小案例

1、按行分组读取文件 Spout public class AmtSpout implements IRichSpout { private FileInputStream fileInputStream; private InputStreamReader inputSt...

2019-03-11 20:35:00

阅读数 10

评论数 0

Storm集群简单部署

三台虚拟机: hadoop-01 192.168.119.141 hadoop-02 192.168.119.142 hadoop-03 192.168.119.143 一、JDK安装、SSH免密码登陆 二、zookeeper安装 三、storm集群安装 1、下载storm的安装包 ...

2019-02-25 10:12:33

阅读数 118

评论数 0

Linux crontab定时器

Linux crontab定时器 crontab -e 编辑定时器 crontab -l 显示当前定时器 crontab -r 删除当前定时器 格式 分钟(0-59) 小时(0-23) 日期(1-31) 月份(1-12) 周(0-7,0和7都是星期日) 命令 辅助特殊字符: *...

2019-01-01 15:44:18

阅读数 96

评论数 0

常用的排序算法

package alg.com.sort; public class Sort { public static void main(String[] args) { int[] datas = {9,1,4,3,5,6,7,2,8}; //Sort.inse...

2018-12-31 17:05:20

阅读数 15

评论数 0

SparkSQL

SQL(Structured Query Lanaguage 结构化查询语言) 是一种特殊目的的编程语言,是一种数据库查询和程序设计语言,用于存储数据以及查询、更新和管理关系数据库系统;同时也是数据库脚本文件的扩展名。 常用的SQL框架(Hive、Impala、Presto、Shark、Drill...

2018-12-30 19:20:39

阅读数 43

评论数 0

Spark集群搭建

一、操作系统设置 1、关闭防火墙 Chkconfig iptables off 2、 设置selinux 修改/etc/selinux/config文件中的SELINUX=disabled 二、配置集群hosts 在/etc/hosts文件中添加以下内容(IP地址和主机名以实际为准) ...

2018-12-24 15:27:08

阅读数 29

评论数 0

kafka与flume集成

flume->kafka # vi flume.conf a1.sources = r1 a1.channels = c1 a1.sinks = k1 a1.sources.r1.type = exec a1.sources.r1.command = /usr/bin/...

2018-12-20 20:03:13

阅读数 49

评论数 0

安装kafka

1、三台虚拟机CentOS-01,CentOS-02,CentOS-03 2、现在kafka的yum #cd /etc/yum.repos.d/ (如果是CentOS 6 系统,则将7改为6) #wget http://archive.cloudera.com/kafka/redhat/...

2018-12-20 11:44:40

阅读数 30

评论数 0

Flume输出sink到HBase

1、Hbase中建表 hbase(main):056:0>create 'movie','analyse' 2、Flume配置 a1.sources = r1 a1.sinks = k1 a1.channels = c1 # D...

2018-12-19 17:43:44

阅读数 271

评论数 0

HBase和MapReduce集成

1、使用MapReduce对Hbase中的一张表数据统计,然后将结果输出到HBase中的另一张表 package com.cxy.hbase; import java.io.IOException; import org.apache.hadoop.conf.Configuratio...

2018-12-19 17:13:52

阅读数 31

评论数 0

HBase API

package com.cxy.hbase; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.Cell; import org.apa...

2018-12-19 13:59:15

阅读数 17

评论数 0

Hive

HIVE是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张表,并提供SQL查询功能 因为是基于hdfs,数据默认存放在/usr/warehouse中 进入Hive客户端 ./bin/hive hive命令交互的几种方式 #hive -e &qu...

2018-12-12 15:24:10

阅读数 85

评论数 0

Spark Streaming

1、Spark Streaming是一个流处理框架。可以实现高吞吐的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafk,Flume,Twitter,ZeroMQ,Kinesis,以及TCP sockets,从数据源获取数据之后,可以使用函数(map、reduce、join和w...

2018-12-11 20:25:38

阅读数 21

评论数 0

Java之锁机制

Java提供了两种锁机制来实现对某个共享资源的同步:synchronized和Lock。其中synchronized使用Object对象本身的notify、wait、notityAll调度机制,而Lock可以使用Condition进行线程之间的调度,完成synchronized实现的所有功能 ....

2018-12-08 20:41:14

阅读数 15

评论数 0

Spark算子

Transformation 转换/变换算子:这种算子不触发提交作业,完成作业中间过程处理 Action 行动算子:这类算子会触发SparkContext提交Job作业,将数据输出Spark系统 Transformation算子 map算子(一对一输出) -将一个数据项通过自定义函数转变为...

2018-12-07 20:56:38

阅读数 57

评论数 0

MapReduce使用DistributedCache关联大表和小表

package com.oracle.join; import java.io.BufferedReader; import java.io.FileReader; import java.io.IOException; import java.util.HashMap; import org....

2018-11-30 19:38:29

阅读数 65

评论数 0

MapReduce通过多个Map运行不同格式文件

1.Bean package com.oracle.join; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import org.apache.hadoop.io.Wri...

2018-11-26 19:50:45

阅读数 126

评论数 0

MapReduce使用MultipleOutputs分组输出多个文件

package com.oracle.multiple; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import or...

2018-11-26 19:41:45

阅读数 49

评论数 0

MapReduce小文件合并

1.Merge类 package com.cxy.merge; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; im...

2018-11-23 20:26:32

阅读数 196

评论数 0

提示
确定要删除当前文章?
取消 删除