大数据
文章平均质量分 54
黑暗行动
足球
乐观
架构设计
展开
-
HBase-client-0.98.4客户端重要参数分析
重要参数参见:org.apache.hadoop.hbase.HConstantshbase.rpc.timeout:表示一次RPC请求的超时时间默认值:public static int DEFAULT_HBASE_RPC_TIMEOUT = 60000;hbase.client.operation.timeout:该值与hbase.rpc.timeout的区别为,hba...原创 2019-06-10 20:28:23 · 872 阅读 · 0 评论 -
Spark2.3.0集群安装(3)-运行日志
Spark2.3.0集群安装(1)-集群安装Spark2.3.0集群安装(2)-提交命令standalone-client 和 standalone-cluster 运行日志sparkUI监控界面http://192.168.199.210:8088/点击 Application IDyarn-client 和yarn-cluster 运行日志hadoopUI监...原创 2019-02-21 23:39:12 · 213 阅读 · 0 评论 -
HBase(4)-预分区
HBase表每个Table由若干个Region组成,每个Region由若干个Store组成(每个列组构成一个Store),每个由一个MemStore和若干个StoreFiles(HFiles)组成,每个StoreFile由若干个Blocks组成。HBase对表进行split有三种方式Pre-splitting,Auto splitting,Forced Splits本文重点说说...原创 2019-01-13 22:58:03 · 413 阅读 · 0 评论 -
SparkStreaming读取kafka数据(3)-Receiver方式
SparkStreaming读取kafka数据(1)-2种方式介绍SparkStreaming读取kafka数据(2)-DirectStream方式Receiver方式和DirectStream方式和优缺点见上面2篇文章项目依赖<dependency> <groupId>org.apache.spark</groupId> ...原创 2019-01-10 23:03:02 · 684 阅读 · 0 评论 -
SparkStreaming读取kafka数据(2)-DirectStream方式
项目依赖<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.3.0</version> </depen原创 2018-12-24 00:34:11 · 1619 阅读 · 0 评论 -
SparkStreaming读取kafka数据(1)-2种方式介绍
环境Spark 2.3.0kafka_2.9.2-0.8.2.2Scala 2.112种方式一种是利用接收器(receiver)和kafaka的高层API实现。一种是不利用接收器,直接用kafka底层的API来实现(spark1.3以后引入)Receiver方式Receiver是使用Kafka的高层次Consumer API来实现的。receiver从Kafka中获...原创 2018-12-24 00:15:11 · 917 阅读 · 0 评论 -
Spark读写elasticsearch
运行环境spark:2.3.0elasticsearch:6.2.3jdk:1.8参考说明Apache Spark support | Elasticsearch for Apache Hadoop [6.5] | Elastichttps://www.elastic.co/guide/en/elasticsearch/hadoop/current/install.html...原创 2018-12-16 22:30:53 · 625 阅读 · 2 评论 -
SparkSQL访问MySql源
Spark环境spark-2.3.0添加依赖<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> <version>2.3.0</version&原创 2018-11-18 23:24:17 · 511 阅读 · 0 评论 -
SparkSQL访问Hive源
软件环境hadoop2.7.6spark-2.3.0scala-2.11.12hive-2.1.1SparkSQL命令行模式可以直接连接Hive的将hive目录中的 D:\Soft\apache-hive-2.1.1-bin\conf\hive-site.xml 文件拷贝贝到D:\Soft\spark\confspark目录中D:\soft\spark\jars 目录...原创 2018-11-18 22:52:26 · 863 阅读 · 0 评论 -
linux安装hadoop集群(1)-准备工作
1 准备三台服务器192.168.199.210 hpmaster192.168.199.211 hpslave1192.168.199.212 hpslave22 配置hosts三台主机都配置hosts[root@localhost ~]# vim /etc/hosts192.168.199.210 hpmaster192.168.199.211 hpsla...原创 2019-02-17 21:27:20 · 836 阅读 · 0 评论 -
linux安装hadoop集群(2)-配置安装
上篇 linux安装hadoop集群(1)-准备工作本篇 linux安装hadoop集群(2)-配置安装1 集群结构节点名称 NN1 NN2 DN RM NM hpmaster NameNode DataNode NodeManager hpslave1 SecondaryNameNode ...原创 2019-02-17 22:15:03 · 475 阅读 · 0 评论 -
linux安装hadoop集群(3)-运行Java程序
第一篇 linux安装hadoop集群(1)-准备工作第二篇 linux安装hadoop集群(2)-配置安装本篇 linux安装hadoop集群(3)-运行Java程序1 准备文件[root@hpmaster chy]# pwd/usr/chy[root@hpmaster chy]# lstemperature-012 文件内容[root@hpmaster ch...原创 2019-02-17 22:31:32 · 579 阅读 · 0 评论 -
HBase-client-0.98.4重试参数分析
重试参数hbase.client.retries.number:失败时重试次数默认值:public static int DEFAULT_HBASE_CLIENT_RETRIES_NUMBER = 31;重试次数能否设置为0呢?分析源码@Override public Result[] get(List<Get> gets) throws IOExc...原创 2019-06-12 15:00:55 · 341 阅读 · 0 评论 -
flink1.6.4测试环境搭建(2)-idea开发环境搭建
flink程序模版java和scala程序模版下载说明执行maven命令随便进入目录(例如:E:\csdn)执行以下maven命令:mvn archetype:generate -DarchetypeGroupId=org.apache.flink -DarchetypeArtifactId=flink-quickstart-java -DarchetypeVersion...原创 2019-03-31 23:30:25 · 646 阅读 · 0 评论 -
flink1.6.4测试环境搭建(1)-local模式安装
flink下载地址flink官网下载地址flink-1.6.4-bin-hadoop27-scala_2.11.tgz请根据scala和haoop下载对应版本flink安装环境win7-64位jdk-1.8flink安装模式local解压安装包D:\Soft\flink-1.6.4修改配置文件D:\Soft\flink-1.6.4\...原创 2019-03-31 22:40:34 · 412 阅读 · 0 评论 -
SparkStreaming读取kafka数据(4)-更新offset到zookeeper
SparkStreaming读取kafka数据(2)-DirectStream方式前遍讲了Spark streaming处理kafka的数据的checkpoint机制方式checkpoint的弊端checkpoint的最大的弊端在于,一旦你的流式程序代码或配置改变了,或者更新迭代新功能了,这个时候,你先停旧的sparkstreaming程序,然后新的程序打包编译后执行运行,会发现两种...原创 2019-03-23 15:24:19 · 896 阅读 · 0 评论 -
Spark2.3.0集群安装(2)-提交命令
上一篇:Spark2.3.0集群安装(1)-集群安装spark可以部署到不同的资源平台上,支持以下4种模式:Spark Mesos模式:官方推荐模式,通用集群管理,有两种调度模式:粗粒度模式(Coarse-grained Mode)与细粒度模式(Fine-grained Mode);Spark YARN模式:Hadoop YARN资源管理模式;Standalone模式: 简单模式或称独立...原创 2019-02-21 23:15:50 · 311 阅读 · 0 评论 -
Spark-submit:System memory 466092032 must be at least 471859200
在运行Standalone-client模式时遇到如下错误:Spark Executor Command: "/usr/local/jdk1.8.0_181/bin/java" "-cp" "/usr/local/spark-2.3.0/conf/:/usr/local/spark-2.3.0/jars/*:/usr/local/hadoop-2.7.6/etc/hadoop/" "-Xmx...原创 2019-02-12 23:55:22 · 1885 阅读 · 1 评论 -
Spark2.3.0集群安装(1)-集群安装
1 准备工作linux安装zookeeper3.4.11集群linux安装hadoop集群(1)-准备工作linux安装hadoop集群(2)-配置安装2 scala环境安装 2.1 下载https://www.scala-lang.org/download/2.11.12.html 2.2 解压[root@hpmaster chy]# tar zxvf ...原创 2019-02-17 23:11:36 · 568 阅读 · 0 评论 -
linux安装hadoop集群(4)-hdfs命令
第一篇 linux安装hadoop集群(1)-准备工作第二篇 linux安装hadoop集群(2)-配置安装第三篇 linux安装hadoop集群(3)-运行Java程序本篇 linux安装hadoop集群(4)-hdfs命令1 监控界面http://192.168.199.210:50070/explorer.html#/2 列出目录[root@hpmaster...原创 2019-02-17 22:43:19 · 524 阅读 · 0 评论 -
Apache-phoenix安装和使用操作HBase
实验环境操作系统: window 7 ip:192.168.199.247 计算机名称:admin-pcHBase: hbase-1.2.6 (单机,自带zookeeper) Hadoop:hadoop-2.7.6 (单机) 操作系统: centos 7 ip:192.168.199.144phoenix:apache-phoenix-4.14.0-HBase-1.2...原创 2018-10-17 01:50:53 · 2004 阅读 · 0 评论 -
spark中算子aggregateByKey解释
刚开始学aggregateByKey算子看的一头雾水,今天写下心得。看下面的例子:package com.chy.rdd.transformation;import com.chy.util.SparkUtil;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkCont...原创 2018-07-27 15:44:41 · 406 阅读 · 0 评论 -
HBase(3)-操作命令DML
表定义 describe指令格式:describe 表名hbase(main):003:0> describe 'tbTest'Table tbTest is ENABLEDtbTestCOLUMN FAMILIES DESCRIPTION{NAME => 'col-familyA', BLOOMFILTER => 'ROW', VERSIONS =&...原创 2018-06-09 10:51:44 · 321 阅读 · 0 评论 -
HBase(2)-操作命令DDL
创建表 create指令格式:create 表名,列簇1,....,列簇nhbase(main):010:0> create 'tbTest','col-familyA','col-familyB'0 row(s) in 2.4910 secondscreate 't1', 'f1', SPLITS => ['10', '20', '30', '40']c...原创 2018-06-08 11:42:07 · 506 阅读 · 0 评论 -
HBase(1)-通用命令
启动HBase shell进入HBase安装目录bin目录,启动cmd,输入hbase shell D:\Soft\hbase-1.2.6\bin>hbase shell状态命令hbase(main):001:0> status1 active master, 0 backup masters, 1 servers, 1 dead, 3.0000 average ...原创 2018-06-08 10:37:42 · 396 阅读 · 0 评论 -
window安装HBase单节点测试环境
搭建HBase单节点开发测试环境,经过摸索,终于可以在windows下安装HBase,而且不需要cygwin。hadoop2.7.6安装:hadoop在window下安装Hbase版本:hbase-1.2.6HBase和Hadoop的对照表通过对照表可知:hadoop2.7.6 支持hbase1.2.6开始安装1 下载HBase1.2.6 解压 D:\Sof...原创 2018-06-07 16:15:00 · 783 阅读 · 0 评论 -
JavaAPI访问HBase出现org.apache.hadoop.hbase.client.RetriesExhaustedException
在win7环境中测试JavaApi访问HBASE1.2.6,依赖如下:<!-- hhbase-client --><dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId> <versio...原创 2018-06-21 09:21:34 · 3143 阅读 · 0 评论 -
Spark入门helloword
hadoop和spark环境搭建好后,怎么入门?从最简单的helloword说起吧。告诉大家怎么执行scala和python代码。1 scala版本在cmd中输入 spark-shell ,启动成功后,然后输入 println("helloword")2 python版本在cmd中输入 pyspark,启动成功后,然后输入 print("helloword") 还有不明白参见Spark-quic...原创 2018-05-28 17:20:24 · 872 阅读 · 0 评论 -
hadoop2.7.6和spark-2.3.0以及scala环境搭建
1 java1.8环境配置 安装目录不要有空格,否则后面配置hadoop很麻烦 参考 jdk1.8配置 2 scala环境配置 scala的版本很多,但是spark的官网告诉我们spark-2.3.0使用2.11.x scala下载地址, 我下载的是 scala-2.11.12.msi 新建SCALA_HOME:D:\Soft\scala Path后面追加: %SCAL...原创 2018-05-28 17:17:49 · 5049 阅读 · 0 评论 -
hadoop2.7.6 hdfs 命令测试
hadoop环境搭建参见hadoop2.7.6环境配置 列出所有目录hdfs dfs -ls / 创建目录hadoop fs -mkdir hdfs://localhost:9000/chy-data/ 创建目录hadoop fs -mkdir hdfs://localhost:9000/chy-data/data0 文件操作e盘有2个文件s...原创 2018-05-28 17:10:38 · 1454 阅读 · 0 评论 -
win7配置安装Hive-2.1.1
1 配置安装hadoop ,版本:hadoop-2.7.62 下载hive版本:apache-hive-2.1.1-bin3 解压hive到目录:D:\Soft\apache-hive-2.1.1-bin4 下载mysql驱动放到:D:\Soft\apache-hive-2.1.1-bin\lib\mysql-connector-java-5.1.30-bin.jar5 配置环境...原创 2018-07-09 20:37:09 · 4922 阅读 · 9 评论 -
Hive导入文本数据
创建表导入文本数据hive> CREATE TABLE test1(name STRING,age INT, address STRING,school STRING). . > ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'. . > STORED AS TEXTFILE ;显示表结构hive> desc test1;name...原创 2018-07-10 22:54:30 · 8536 阅读 · 1 评论 -
Hive导入CSV数据解决乱码
创建表hive> create table tbcsv(id string,name string,age string). . > row format serde. . > 'org.apache.hadoop.hive.serde2.OpenCSVSerde'. . > with SERDEPROPERTIES. . > ("separatorChar"=","...原创 2018-07-10 23:36:45 · 7384 阅读 · 0 评论 -
Hive分区
创建分区表 dt 是分区列create table pt1 (id int, name string) partitioned by (dt string) row format delimited fields terminated by ',' stored as textfile;增加分区alter table pt1 add partition (dt='2018-07-13');删除分区...原创 2018-07-14 16:07:57 · 412 阅读 · 0 评论 -
flume读取log日志文件存储到HDFS
配置hadoop环境配置flume环境配置flume文件D:\Soft\apache-flume-1.8.0-bin\conf 将 flume-conf.properties.template 重新命名为 hdfs.properties# 组装 agenta1.sources = s1a1.channels = c1a1.sinks = k1# 配置source:...原创 2018-07-25 10:50:43 · 4039 阅读 · 0 评论 -
flume-1.8.0-window入门配置
下载地址 http://flume.apache.org/download.html解压文件D:\Soft\apache-flume-1.8.0-bin配置文件D:\Soft\apache-flume-1.8.0-bin\conf 将 flume-conf.properties.template 重新拷贝为 netcat.properties编辑netcat.proper...原创 2018-07-24 14:48:59 · 411 阅读 · 0 评论 -
Sqoop安装和导入导出
Latest stable release is 1.4.7 (download, documentation). Latest cut of Sqoop2 is 1.99.7 (download, documentation). Note that 1.99.7 is not compatible with 1.4.7 and not feature complete, it is not in...原创 2018-07-12 16:51:45 · 486 阅读 · 0 评论 -
Hive分桶
目的对于每一个表(table)或者分区, Hive可以进一步组织成桶,也就是说桶是更为细粒度的数据范围划分。把表(或者分区)组织成桶(Bucket)有两个理由:(1)获得更高的查询处理效率。桶为表加上了额外的结构,Hive 在处理有些查询时能利用这个结构。具体而言,连接两个在(包含连接列的)相同列上划分了桶的表,可以使用 Map 端连接 (Map-side join)高效的实现。比如...原创 2018-07-18 16:58:19 · 393 阅读 · 0 评论 -
Hive导入hdfs数据(2)
上一遍Hive导入hdfs数据中存在1个问题,导入文件后,文件路径会被移动,如果不想移动文件怎么办?准备文件 E:\hive\hdfs2.txt存储到hdfs中hive创建外部表hive> create external table if not exists hdfs2(id STRING, name STRING). . > row format delimited fields ...原创 2018-07-11 16:06:43 · 1807 阅读 · 0 评论 -
Hive导入hdfs数据(1)
1 准备文件 E:\hive\hdfs1.txt2 导入文件到HDFSD:\Soft\hadoop-2.7.6\sbin>hadoop fs -put E:\hive\hdfs1.txt hdfs://localhost:9000/chy-data/3 启动hive创建表hive> CREATE TABLE hdfs1(id STRING, name STRING) ROW FORMA...原创 2018-07-11 15:40:06 · 13487 阅读 · 0 评论