大数据学习
大数据知识的一些学习和思考
qq_40178533
这个作者很懒,什么都没留下…
展开
-
hbase预分区总结
如果知道hbase数据表的key的分布情况,就可以在建表的时候对hbase进行region的预分区。这样做的好处是防止大数据量插入的热点问题,提高数据插入的效率。步骤:1.规划hbase预分区首先就是要想明白数据的key是如何分布的,然后规划一下要分成多少region,每个region的startkey和endkey是多少,然后将规划的key写到一个文件中。比如,key的前几位字符串都是从0001~0010的数字,这样可以分成10个region,划分key的文件如下:0001|0002|0003原创 2020-06-08 07:48:13 · 829 阅读 · 1 评论 -
HBase调优总结
调优方法预分区Pre-Creating Regions(预分区)默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候, 所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。 一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入 HBase时,会按照region分区情况,在集群内做数据的负载均衡。如果知道hbase数据表的key的分布情况,就可以在建表的时候对hbase进行region的预分区。这样做原创 2020-06-07 21:14:00 · 166 阅读 · 0 评论 -
Hbase过滤器小结
1过滤器HBase 的基本 API,包括增、删、改、查等。增、删都是相对简单的操作,与传统的 RDBMS 相比,这里的查询操作略显苍白,只能根据特性的行键进行查询(Get)或者根据行键的范围来查询(Scan)。HBase 不仅提供了这些简单的查询,而且提供了更加高级的过滤器(Filter)来查询。1.1 过滤器的两类参数过滤器可以根据列族、列、版本等更多的条件来对数据进行过滤,基于 HBase 本身提供的三维有序(行键,列,版本有序),这些过滤器可以高效地完成查询过滤的任务,带有过滤器条件的 RP原创 2020-06-05 08:01:12 · 862 阅读 · 0 评论 -
Hbase的shell调用
进入Hbase shell进入Hbase shell的操作:输入命令Hbase shell常用语法1. 创建表语法create <table>, {NAME => <family>, VERSIONS => <VERSIONS>}例子:创建一个User表,并且有一个info列族create ‘User’,‘info’2. 查看详情表describe ‘User’3. 表修改删除指定的列族:alter ‘User’, ‘delete’ =&原创 2020-06-04 18:33:08 · 136 阅读 · 0 评论 -
Hbase集群搭建总结
注意:HBase集群建立在hadoop集群基础之上,所以在搭建HBase集群之前需要把Hadoop集群搭建起来,搭建步骤一.搭建Hadoop集群参考:hadoop 分布式集群搭建二.安装zookeeper参考:zookeeper集群安装三.部署hbase1.解压缩hbase的软件包,使用命令:tar -zxvf hbase-1.3.0-bin.tar.gz2.进入hbase的配置目录,在hbase-env.sh文件里面加入java环境变量.即:JAVA_HOME=export JAVA_原创 2020-06-03 08:31:05 · 351 阅读 · 0 评论 -
Zookeeper的介绍和搭建
Zookeeper 简介Zookeeper是一个高效的分布式协调服务,可以提供配置信息管理、命名、分布式同步、集群管理、数据库切换等服务。它不适合用来存储大量信息,可以用来存储一些配置、发布与订阅等少量信息。Hadoop、Storm、消息中间件、RPC服务框架、分布式数据库同步系统,这些都是Zookeeper的应用场景。Zookeeper集群中节点个数一般为奇数个(>=3),若集群中Master挂掉,剩余节点个数在半数以上时,就可以推举新的主节点,继续对外提供服务。Zookeeper集群搭建原创 2020-06-01 08:07:13 · 88 阅读 · 0 评论 -
HBase的基础介绍
HBase的定义HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库。利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务,主要用来存储非结构化和半结构化的松散数据(列存 NoSQL 数据库)。HBase 的架构Master为Region server分配region负责Region server的负载均衡发现失效的Region原创 2020-05-31 08:02:01 · 119 阅读 · 0 评论 -
Hive基本语法和使用
Hive 语法建表语句第一种常用新建原始表:create [EXTERNAL] table vv_stat_fact(userid string,stat_date string,tryvv int,sucvv int,ptime float) PARTITIONED BY ( 非必选;创建分区表 dt string)clustered by (userid) into 3000 buckets // 非必选;分桶子ROW FORMAT DELIMITED FIELDS TE原创 2020-05-30 09:21:17 · 318 阅读 · 0 评论 -
Hive的介绍和搭建
Hive的定义Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL ,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。Hive与传统原创 2020-05-29 12:11:39 · 221 阅读 · 0 评论 -
大数据MapReduce的原理小结
MapReduce定义MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题.MapReduce是分布式运行的,由两个阶段组成:Map和Reduce,Map阶段是一个独立的程序,有很多个节点同时运行,每个节点处理一部分数据。Reduce阶段是一个独立的程序,有很多个节点同时运行,每个节点处理一部分数据。MapReduce框架都有默认实现,用户只需要覆盖map()和reduce()两个函数,即可实现分布式计算,非常简单。原理在执行mapreduc原创 2020-05-28 09:18:00 · 264 阅读 · 0 评论 -
大数据的HDFS小结
定义Hdfs(Distributed File System):分布式文件管理系统。它是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间。特点:通透性。让实际上是通过网络来访问文件的动作,由程序与用户看来,就像是访问本地的磁盘一般。容错。即使系统中有某些节点宕机,整体来说系统仍然可以持续运作而不会有数据损失【通过副本机制实现】。shell操作调用文件系统(FS)Shell命令应使用 bin/hdfs dfs -xxx 的形式。例如:/parent/c原创 2020-05-27 08:50:58 · 260 阅读 · 0 评论 -
Hadoop集群搭建的总结
损失原创 2020-05-26 08:52:04 · 3234 阅读 · 0 评论 -
Hadoop的一些基本知识
Hadoop 简介Hadoop是一个适合海量数据的分布式存储和分布式计算的平台。作者Doug Cutting 受Google三篇论文的启发,开发了hadoop。Hadoop 组件hadoop是一个统称,目前hadoop主要包含三大组件hdfs:是一个分布式存储框架,适合海量数据存储mapreduce:是一个分布式计算框架,适合海量数据计算yarn:是一个资源调度平台,负责给计算框架分配计算资源下载目前,hadoop已经演变为大数据计算的代名词,形成了一套完善的大数据计算的生态系统,所以原创 2020-05-25 14:32:55 · 129 阅读 · 0 评论 -
Linux的VMTools安装
什么是VMtoolsVM tools顾名思义就是Vmware的一组工具。主要用于虚拟主机显示优化与调整,另外还可以方便虚拟主机与本机的交互,如允许共享文件夹,甚至可以直接从本机向虚拟主机拖放文件、鼠标无缝切换、显示分辨率调整等,十分实用。1.先启动CentOS并成功登录如所示,发现底部提示且窗口中等大小,准备安装...原创 2020-05-23 08:17:21 · 191 阅读 · 0 评论 -
大数据之linux的安装和部署
Linux介绍1.Linux内核最初只是由芬兰人林纳斯托瓦兹在赫尔辛基大学上学时出于个人爱好而编写的。Linux是一套免费使用和自由传播的类Uuix操作系统,是一个多用户、多任务、支持多线程和多CPU的操作系统。2.目前市面上较知名的发行版有: Ubuntu RedHat、CentOS 等。Centos下载地址VM与Linux的安装VM安装比较简单,直接一路next即可,破解版我已上传到我的资源上。下面来看CentOS安装的步骤:1.检查BIOS虚拟化支持2.新建虚拟机,如图所示3.新原创 2020-05-22 12:03:14 · 461 阅读 · 0 评论