- 博客(12)
- 收藏
- 关注
原创 Flume的一些操作
参数 作用 举例–conf 或 -c 指定配置文件夹,包含flume-env.sh和log4j的配置文件–conf conf–conf-file 或 -f 配置文件地址–conf-file conf/flume.conf–name 或 -n agent名称–name a1-z zookeeper连接字符串-z zkhost:2181,zkhost1:2181-p zooke
2018-01-21 10:52:40 443
原创 Kafka基本操作
开启kafka服务:开启系统自带zookeeper:./bin/zookeeper-server-start.sh config/zookeeper.properties &开启自己配置的zookeeper:./bin/zkCli.sh start开启kafka集群:./bin/kafka-server-start.sh config/server.properties &创建
2018-01-21 10:32:25 301
原创 Kafka指定分区和offset消费。
消费者:public class DConsumer { public static void main(String[] args) { Properties prop = new Properties(); prop.put("bootstrap.servers","node:9092"); prop.put("group.id
2017-12-25 17:28:50 8879
原创 Kafka自定义分区规则
分区规则:public class Partitioner1 implements Partitioner{ public Partitioner1() { } public int partition(String topic, Object key, byte[] keyBytes, Object value, byte[] valueBytes, Clu
2017-12-25 17:09:49 808 1
原创 SparkSQL中的DataFrame的两种创建方式。
动态创建:package com.sparkproject.abc;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.api.java
2017-12-15 19:56:25 512
原创 广播变量和累加器
package com.sparkproject.abc;import org.apache.spark.Accumulator;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.function.FlatMapFu
2017-12-15 19:53:27 281
原创 Spark自定义累加器
package com.sparkproject.abc;import org.apache.spark.AccumulatorParam;public class UDFAccumulatorClass implements AccumulatorParam { private static final long serialVersionUID = 1L; @Ov
2017-12-15 19:46:25 1470
原创 Hive (一)
Hive数据仓库,理解为hadoop的客户端,可以通过Hive来操作hadoop。Hive的功能是把脚本变成MapReduce程序,方便不熟悉MapReduce的开发者来分析数据。数据存储Hive的元素存储在关系型数据库中。Hive本身不存储数据,数据存在HDFS上,Hive存储的事Hive到HDFS中数据的映射关系,通过这个映射关系Hive可以操作HDFS上的数据。端口H
2017-11-26 14:22:34 1135
原创 Linux部分指令
1.chmod 777 文件名2.mkdir -p 可以建立多级目录3.cp rm mv(更名) cp -a 表示将档案的所有特性都一起复制过来。5.如果是复制目录需要加上-r cp -s 创建源文件的链接 cp -l -l 就是所谓癿实体链接(hard link),至亍 -s 则是符号链接(symboliclink) 6.rm -r 递归删除,危险。7.mv a b 更
2017-11-25 16:37:02 187
原创 Spark SQL
DataFrameDataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格。带有schema信息的RDD,主要对结构化的数据高度抽象。DataFrame和RDD的区别:DataFrame带有schema元信息,DataFrame所表示的二维表数据集的每一列都带有名称和类型,这使得SparkSQL得意洞察等多的结构信息,从而对藏于DataFrame背后的数据源以及作
2017-11-25 16:20:36 334
原创 Spark (一)
Spark的运行模式local,standalone,yarn,mesos。yarn还分为yarn-client 和 yarn-master学习过程中主要用到local和yarnSpark名词Standalone模式下:Master:集群中含有Master进程的节点。Master是整个集群的控制器,负责整个集群的正常运行。Slave:集群中含有Worker进程的节点。Wor
2017-11-25 15:37:07 1375
原创 Hadoop基础(一)
启动hadoopstart-all.sh 相当于 start-dfs.sh 和 start-yarn.sh。start-dfs.sh: 主要是启动NameNode进程和DataNode进程。start-yarn.sh: 启动ResourceManager进程和NodeManager进程。可用命令jps查看是否启动成功。名词概念NameNode:主节点。主要是存储元数据metad
2017-11-25 10:41:21 305
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人