这个超人不会灰-CSDN博客

原创 Flume的一些操作

参数作用举例–conf 或 -c 指定配置文件夹，包含flume-env.sh和log4j的配置文件–conf conf–conf-file 或 -f 配置文件地址–conf-file conf/flume.conf–name 或 -n agent名称–name a1-z zookeeper连接字符串-z zkhost:2181,zkhost1:2181-p zooke

2018-01-21 10:52:40 443

原创 Kafka基本操作

开启kafka服务：开启系统自带zookeeper：./bin/zookeeper-server-start.sh config/zookeeper.properties &开启自己配置的zookeeper：./bin/zkCli.sh start开启kafka集群：./bin/kafka-server-start.sh config/server.properties &创建

2018-01-21 10:32:25 301

原创 Kafka指定分区和offset消费。

消费者：public class DConsumer { public static void main(String[] args) { Properties prop = new Properties(); prop.put("bootstrap.servers","node:9092"); prop.put("group.id

2017-12-25 17:28:50 8879

原创 Kafka自定义分区规则

分区规则：public class Partitioner1 implements Partitioner{ public Partitioner1() { } public int partition(String topic, Object key, byte[] keyBytes, Object value, byte[] valueBytes, Clu

2017-12-25 17:09:49 808 1

原创 SparkSQL中的DataFrame的两种创建方式。

动态创建：package com.sparkproject.abc;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.api.java

2017-12-15 19:56:25 512

原创广播变量和累加器

package com.sparkproject.abc;import org.apache.spark.Accumulator;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.function.FlatMapFu

2017-12-15 19:53:27 281

原创 Spark自定义累加器

package com.sparkproject.abc;import org.apache.spark.AccumulatorParam;public class UDFAccumulatorClass implements AccumulatorParam { private static final long serialVersionUID = 1L; @Ov

2017-12-15 19:46:25 1470

原创 Hive (一)

Hive数据仓库，理解为hadoop的客户端，可以通过Hive来操作hadoop。Hive的功能是把脚本变成MapReduce程序，方便不熟悉MapReduce的开发者来分析数据。数据存储Hive的元素存储在关系型数据库中。Hive本身不存储数据，数据存在HDFS上，Hive存储的事Hive到HDFS中数据的映射关系，通过这个映射关系Hive可以操作HDFS上的数据。端口H

2017-11-26 14:22:34 1135

原创 Linux部分指令

1.chmod 777 文件名2.mkdir -p 可以建立多级目录3.cp rm mv（更名） cp -a 表示将档案的所有特性都一起复制过来。5.如果是复制目录需要加上-r cp -s 创建源文件的链接 cp -l -l 就是所谓癿实体链接(hard link)，至亍 -s 则是符号链接(symboliclink) 6.rm -r 递归删除，危险。7.mv a b 更

2017-11-25 16:37:02 187

原创 Spark SQL

DataFrameDataFrame是一种以RDD为基础的分布式数据集，类似于传统数据库中的二维表格。带有schema信息的RDD，主要对结构化的数据高度抽象。DataFrame和RDD的区别：DataFrame带有schema元信息，DataFrame所表示的二维表数据集的每一列都带有名称和类型，这使得SparkSQL得意洞察等多的结构信息，从而对藏于DataFrame背后的数据源以及作

2017-11-25 16:20:36 334

原创 Spark (一)

Spark的运行模式local，standalone，yarn，mesos。yarn还分为yarn-client 和 yarn-master学习过程中主要用到local和yarnSpark名词Standalone模式下：Master：集群中含有Master进程的节点。Master是整个集群的控制器，负责整个集群的正常运行。Slave：集群中含有Worker进程的节点。Wor

2017-11-25 15:37:07 1375

原创 Hadoop基础（一）

启动hadoopstart-all.sh 相当于 start-dfs.sh 和 start-yarn.sh。start-dfs.sh: 主要是启动NameNode进程和DataNode进程。start-yarn.sh: 启动ResourceManager进程和NodeManager进程。可用命令jps查看是否启动成功。名词概念NameNode：主节点。主要是存储元数据metad

2017-11-25 10:41:21 305

小鱼0917