![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
wxdoop
合抱之木,生于毫末;九层之台,起于累土;千里之行,始于足下。
展开
-
Hbase
文章目录HBase 逻辑模型表行键列簇列限定符单元格版本分区Hbase物理模型HmasterHRegionServer客户端读数据流程WALStoreMemeStoreHBase 逻辑模型 Hbase是一个键值型数据库。适合存储列不确定,不确定大小的半结构化数据。表类似关系数据库中的表,一个表可以有多个分区行键用来表示唯一的一行数据,用字节数组进行存储,相当于关系型数据库中的主键行键也是Hbase最有效的索引,表中额数据会以行键为标准进行字典序的排序。列簇Hbase是一个列式数据库,原创 2020-08-18 11:08:47 · 378 阅读 · 0 评论 -
离线部署 hadoop2.6.5+hive1.2.0+flink1.72
首先要有三台虚拟机环境系统:centos7-1908hadoop:2.6.5hive:1.2.0flink:1.7.2配置查看虚拟网络编辑器查看自己的子网查看子网的网段可以将ip设置为192.168.32.128到192.168.32.254之间。我的网关是192.168.32.2在/etc/sysconfig/network-scripts/ifcfg-ens33...原创 2020-01-14 11:10:21 · 505 阅读 · 0 评论 -
spark Streaming 报错:java.lang.NoClassDefFoundError: org/apache/spark/Logging
原因是spark版本不对应导致的之前用的这个 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-kafka-0-8_2.11</artifactId> <version>2.1.1<...原创 2020-01-07 11:21:36 · 807 阅读 · 0 评论 -
CDH kafka 创建topic报错
执行kafka-topics.sh --create --zookeeper hadoop1:2181 --replication-factor 1 --partitions 1 --topic test报错Error while executing topic command:replication factor :2 laeger than available brokers :0网上...原创 2019-12-26 09:28:47 · 1009 阅读 · 0 评论 -
spark更加高效的求平均数
今天看书看到了mapPartitions,体会了一下分区操作。package com.cnnc.sparkLearningimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object test { def main(args: Array[String]): Unit =...原创 2019-12-24 16:03:19 · 208 阅读 · 0 评论 -
Mapreduce-wordcount-java版
Configuration conf = new Configuration();初始化一个配置对象可以传递一个参数loadDefaults,是否从默认的文件中加载配置。默认情况下这个参数为TrueJob job = Job.getInstance(conf);初始化一个job对象MRJobConfig中有默认的参数设置map任务默认申请内存1G申请cpu为1核默认的输...原创 2019-11-30 17:08:26 · 168 阅读 · 0 评论 -
在本地开发Hadoop
不能查看输出信息在resources中新建log4j.properties文件,添加一下内容 hadoop.root.logger=DEBUG, console log4j.rootLogger = DEBUG, console log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.appender.console...原创 2019-11-10 17:34:24 · 96 阅读 · 0 评论 -
hbase-compact
package com.cnnc.HbaseTest;import org.apache.hadoop.hbase.HRegionInfo;import org.apache.hadoop.hbase.HRegionLocation;import org.apache.hadoop.hbase.MetaTableAccessor;import org.apache.hadoop.hbas...原创 2019-11-08 14:53:30 · 117 阅读 · 0 评论 -
Hbase-scan
package com.cnnc.HbaseTest;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellUtil;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hbase.client.Result;impor...原创 2019-11-08 09:29:41 · 101 阅读 · 0 评论 -
Hbase-java-api
maven依赖<dependency> <groupId>org.apache.zookeeper</groupId> <artifactId>zookeeper</artifactId> <version>3.4.12</version> </dependenc...原创 2019-11-07 11:01:26 · 112 阅读 · 0 评论 -
python hadoop streaming二次排序
data1 1231 122 2341 241 9map.pyimport sysbase_count = 10000for line in sys.stdin: key,value = line.strip().split("\t") key = base_count + int(key) print("%s\t%s"%(str(key),value))redu...原创 2019-10-26 14:06:50 · 343 阅读 · 0 评论 -
python hadoop streaming jon
join数据集data1.txt1 hadoop2 hive3 hbase4 sparkdata2.txt1 python2 java3 java4 scala预计结果1 hadoop,python2 hive,java3 hbase...原创 2019-10-24 11:30:47 · 103 阅读 · 0 评论 -
MapReduce hadoop streaming参数
mapreduce参数mapred.job.name 作业名mapred.job.priority 作业优先级mapred.job.map.capacity 最多同时运行map任务数mapred.job.reduce.capacity 最多同时运行reduce任务数mapred.task.timeout 任务没有响应(输入输出)的最大时间mapred.compress.map....原创 2019-10-24 10:12:03 · 299 阅读 · 0 评论 -
python hadoop streaming 编程 白名单
白名单只统计白名单中的出现的word的次数。map.pyimport sysdef read_local_file(file): word_set = set() with open(file,"r",encoding="utf-8") as f: for i in f.readlines(): ...原创 2019-10-24 10:08:45 · 165 阅读 · 0 评论 -
hive的一些好文章
hive抽样hive left-SEMI-JOINhive窗口函数hive抽样hive抽样hive抽样hive抽样hive抽样原创 2019-10-23 15:00:18 · 81 阅读 · 0 评论 -
python 开发Hive udf
以往的hive的udf都是java开发的。今天看到一篇博文发现hive也支持Python开发udf.写点东西记录一下。python 编写UDF原创 2019-10-23 14:58:21 · 408 阅读 · 0 评论 -
Python 连接hive
两种方式pyHiveimpyla第一种需要安装以下文件包pip install saslpip install thriftpip install thrift-saslpip install PyHive在mac中使用pycharm都可以成功安装,在windows中sasl可能会安装失败。需要使用whl文件本地安装。whl文件下载地址如下https://www.lfd.u...原创 2019-10-23 11:07:10 · 462 阅读 · 0 评论 -
linux(centos)安装Python3
在官网下载python安装包(https://www.python.org/downloads/source/)使用filezilla将下载好的压缩包上传到Linux文件夹下解压文件夹 tar -xf Python安装依赖 yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readl...原创 2019-10-21 22:31:04 · 91 阅读 · 0 评论 -
《Hive》编程指南第五章
HiveQL:数据操作5.1 向管理表中装载数据Hive没有行级别的数据插入更新,删除操作,向表中装载数据的唯一途径就是使用一种大量的数据装载操作如果分区表目录不存在,会先创建分区目录,然后将数据从本地上传到hdfs对应的文件夹下。partition是指定分区的意思,如果表为非分区表,则无需指定。load data local拷贝本地数据到位于分布式问价那系统的目标位置。load d...原创 2019-09-12 19:36:06 · 135 阅读 · 0 评论 -
第四章-HiveQL:数据定义
HiveQL:数据定义Hive中的数据库如果用户没有显示指定数据库,那么将会使用默认的数据库default.如何创建一个数据库?create database finacials;如果数据库已经存在了,那么将会抛出错误信息,使用一下语句可以避免在这种情况下抛出错误信息。create database if not exists finacials;如何查看Hive包含数据库?...原创 2019-05-18 00:04:36 · 539 阅读 · 0 评论 -
《HIVE编程指南》第三章数据类型和文件格式
数据类型和文件格式基本数据类型数据类型长度例子TINYINT1byte有符号整数20SMALINT2byte有符号整数20INT4byte有符号整数20BIGINT8byte有符号整数20BOOLEANbool类型,true或falseTRUEFLOAT单精度浮点数2.14159double双精度浮点数2.1...原创 2019-04-17 16:33:57 · 218 阅读 · 0 评论 -
《HIVE编程指南》第二章基础操作
CLI命令行界面也就是CLI,是和HIVe进行交互的最常用的方式。使用CLI,用户可以创建表,交叉模式以及查询等。CLI选项hive --help --service cli变量和属性--define key=value实际上和--hivevar key=value是等价的。二者都可以让用户在命令行中定义用户自定义变量以便在hive标本中引用。当用户使用这个功能时,Hive会将这些键...原创 2019-04-16 17:38:41 · 304 阅读 · 2 评论