自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小鱼0917

记录学习过程中的总结,非全部原创,不喜勿喷!!!

  • 博客(12)
  • 收藏
  • 关注

原创 Flume的一些操作

参数 作用 举例–conf 或 -c 指定配置文件夹,包含flume-env.sh和log4j的配置文件–conf conf–conf-file 或 -f 配置文件地址–conf-file conf/flume.conf–name 或 -n agent名称–name a1-z zookeeper连接字符串-z zkhost:2181,zkhost1:2181-p zooke

2018-01-21 10:52:40 443

原创 Kafka基本操作

开启kafka服务:开启系统自带zookeeper:./bin/zookeeper-server-start.sh config/zookeeper.properties &开启自己配置的zookeeper:./bin/zkCli.sh start开启kafka集群:./bin/kafka-server-start.sh config/server.properties &创建

2018-01-21 10:32:25 301

原创 Kafka指定分区和offset消费。

消费者:public class DConsumer { public static void main(String[] args) { Properties prop = new Properties(); prop.put("bootstrap.servers","node:9092"); prop.put("group.id

2017-12-25 17:28:50 8879

原创 Kafka自定义分区规则

分区规则:public class Partitioner1 implements Partitioner{ public Partitioner1() { } public int partition(String topic, Object key, byte[] keyBytes, Object value, byte[] valueBytes, Clu

2017-12-25 17:09:49 808 1

原创 SparkSQL中的DataFrame的两种创建方式。

动态创建:package com.sparkproject.abc;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.api.java

2017-12-15 19:56:25 512

原创 广播变量和累加器

package com.sparkproject.abc;import org.apache.spark.Accumulator;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.function.FlatMapFu

2017-12-15 19:53:27 281

原创 Spark自定义累加器

package com.sparkproject.abc;import org.apache.spark.AccumulatorParam;public class UDFAccumulatorClass implements AccumulatorParam { private static final long serialVersionUID = 1L; @Ov

2017-12-15 19:46:25 1470

原创 Hive (一)

Hive数据仓库,理解为hadoop的客户端,可以通过Hive来操作hadoop。Hive的功能是把脚本变成MapReduce程序,方便不熟悉MapReduce的开发者来分析数据。数据存储Hive的元素存储在关系型数据库中。Hive本身不存储数据,数据存在HDFS上,Hive存储的事Hive到HDFS中数据的映射关系,通过这个映射关系Hive可以操作HDFS上的数据。端口H

2017-11-26 14:22:34 1135

原创 Linux部分指令

1.chmod 777 文件名2.mkdir -p 可以建立多级目录3.cp rm mv(更名) cp -a 表示将档案的所有特性都一起复制过来。5.如果是复制目录需要加上-r  cp -s 创建源文件的链接 cp -l   -l 就是所谓癿实体链接(hard link),至亍 -s 则是符号链接(symboliclink) 6.rm -r 递归删除,危险。7.mv a b 更

2017-11-25 16:37:02 187

原创 Spark SQL

DataFrameDataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格。带有schema信息的RDD,主要对结构化的数据高度抽象。DataFrame和RDD的区别:DataFrame带有schema元信息,DataFrame所表示的二维表数据集的每一列都带有名称和类型,这使得SparkSQL得意洞察等多的结构信息,从而对藏于DataFrame背后的数据源以及作

2017-11-25 16:20:36 334

原创 Spark (一)

Spark的运行模式local,standalone,yarn,mesos。yarn还分为yarn-client 和 yarn-master学习过程中主要用到local和yarnSpark名词Standalone模式下:Master:集群中含有Master进程的节点。Master是整个集群的控制器,负责整个集群的正常运行。Slave:集群中含有Worker进程的节点。Wor

2017-11-25 15:37:07 1375

原创 Hadoop基础(一)

启动hadoopstart-all.sh 相当于 start-dfs.sh 和 start-yarn.sh。start-dfs.sh: 主要是启动NameNode进程和DataNode进程。start-yarn.sh: 启动ResourceManager进程和NodeManager进程。可用命令jps查看是否启动成功。名词概念NameNode:主节点。主要是存储元数据metad

2017-11-25 10:41:21 305

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除