大数据学习
不会JAVA的运营不是好数分
这个作者很懒,什么都没留下…
展开
-
大数据系列——01_HDFS
一 HDFS概念1.1 概念HDFS,它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS的设计适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用。1.2 组成1)HDFS集群包括,NameNode和DataNode以及Secondary Namenode...原创 2019-03-20 00:16:27 · 141 阅读 · 0 评论 -
HDFS 常用命令
用的时候,老是想不起来。转一个博客,提醒下自己!!!参考:https://blog.csdn.net/chuchus/article/details/79630067原创 2019-04-29 11:08:33 · 105 阅读 · 0 评论 -
01_Hive建表,导入;HiveServer2;以及UDF
hive建表和sql类似,可以从本地linux和hdfs中导入关闭不必要的Hive的MapReduce任务(有时候查找一个字段都需要mr,这显然是浪费的)hive.fetch.task.conversion -> more<property><name>hive.fetch.task.conversion</name><value>...原创 2019-04-30 20:32:05 · 325 阅读 · 0 评论 -
SSH无密码登录的原理及配置 公钥 私钥
SSH无密码登录的原理及配置 一、SSH概念(百度)SSH 为 Secure Shell 的缩写,由 IETF 的网络小组(Network Working Group)所制定;SSH 为建立在应用层基础上的安全协议。SSH 是目前较可靠,专为远程登录会话和其他网络服务提供安全性的协议。利用 SSH 协议可以有效防止远程管理过程中的信息泄露...原创 2019-05-24 11:19:56 · 437 阅读 · 0 评论 -
可能是Oozie最简单配置与使用了
Oozie简单配置与使用1.翻译 驯象人 2、Oozie简介 一个基于工作流引擎的开源框架,由Cloudera公司贡献给Apache,提供对Hadoop Mapreduce、Pig Jobs的任务调度与协调。 Oozie需要部署到Java Servlet容器中运行。 3、Oozie在集群中扮演的角色 定时调度任务,多任务可以按照执行的逻辑顺序调度。 4、Ooz...原创 2019-07-17 14:29:29 · 253 阅读 · 0 评论 -
Qlik Sense如何连接Hive
前言最近想做BI方面的探索,关于可视化方面和简单的处理方面,我接触到了Qlik。关于连接数据库,我发现,它有对hive的支持,但是一直没找到相应的例子。步骤点击加载数据## 点击hive...原创 2019-07-22 10:06:34 · 731 阅读 · 1 评论 -
02.spark-core入门(算子和Spark任务执行流程)
一、Spark Core概念讲解Spark Core:内核,也是Spark中最重要的部分。相当于MapreduceSparkCore 和 Mapreduce都是进行离线数据分析SparkCore的核心:RDD(弹性分布式数据集),由分区组成二、RDD的五大特性 1、RDD是由一系列的partition组成的。 ...原创 2019-07-31 09:29:25 · 500 阅读 · 0 评论 -
电动车传感器数据处理,入库手动版
基于hueHue是cdh专门的一套web管理器,它包括3个部分hue ui,hue server,huedb。hue提供所有的cdh组件的shell界面的接口。你可以在hue编写mr,查看修改hdfs的文件,管理hive的元数据,运行Sqoop,编写Oozie工作流等大量工作。2.在服务器中处理数据,并且上传之前的环境安装python3.x以上安装豆瓣的包pip3 instal...原创 2019-07-31 21:03:08 · 282 阅读 · 0 评论 -
CDH集群 HDFS数据存储 更换目录
1.问题梳理:CDH集群中,数据文件位置默认在 /dfs/dn 中,这个目录所属的盘符是 /,但是 ‘/’只有50G大小,还有其他各种文件的日志什么的,空间很紧张。今天启动脚本上传文件到hive,因为空间问题一直报错。查阅了资料,需要将CDH集群 HDFS数据存储 更换目录。通过命令查看各个盘符 占用情况df -h我当时占用100%。必须更换数据目录。2. 处理1. 定位思路先将...原创 2019-08-09 12:28:35 · 7082 阅读 · 0 评论 -
Flume好的博文
Flume---- 定义https://www.cnblogs.com/zhangyinhua/p/7803486.htmlFlume---- 配置信息https://www.cnblogs.com/LHWorldBlog/p/8305177.html原创 2019-04-28 20:59:12 · 92 阅读 · 0 评论 -
01_Hive配置和安装
写在前面的话:要配置hive,则需要提前配置好虚拟机和hadoop的相关组件,例如linux,hdfs,java,yarn。因此之前我们先检查这些组件的安装情况,再配置hive.。Linux配置(只给出要检查的步骤)检查Linux配置1、防火墙关闭2、/etc/hosts的IP映射3、/etc/hostname 主机名4、ntp时间服务器(我没有检查,因为时间都是一致的)5、网卡...原创 2019-04-19 10:35:41 · 110 阅读 · 0 评论 -
大数据框架端口号
HDFSNameNode 50070 dfs.namenode.http.address http服务的端口(可从网页登陆) 90000 fs.default.name 内部通讯的端口ZKFC8019 dfs.ha.zkfc.port ZooKeeper FailoverController,用于NA HAYARNR...原创 2019-04-19 09:42:56 · 162 阅读 · 0 评论 -
linux中mysql开启顺序 以及mysql不能开启的问题
linux中mysql不能开启的问题首先说明,无法开启的原因很多,这里我只说明我的原因,不足请大家补充。这里我想从以下两个方面梳理:1.linux中mysql开启顺序2.实际过程中序mysql不能开启的问题。1. linux中mysql开启顺序思路:mysql作为linux操作系统下一个数据库程序,首先需要开启数据库服务。尤其是没有将mysql作为常驻服务的,每次启动服务器时候,必须...原创 2019-04-10 12:34:28 · 226 阅读 · 0 评论 -
Sublime Text3 packagecontrol.io 无法访问的问题
之前需要用编辑器连接到虚拟机的服务器。想用Sublime。安装发现。装了Sublime Text3之后发现install package一直报错,无法使用插件。报错如下:Package ControlThere are no packages available for installationPlease see https://packagecontrol.io/docs/troubl...原创 2019-04-10 15:57:48 · 822 阅读 · 0 评论 -
集群开启顺序 以及 解决高可用HA-hadoop 两个namenode都未激活
解决高可用HA-hadoop 两个namenode都未激活老是犯这个错,就记个博客记录下。当所有配置好以后,两个namenode都没激活的话。就考虑是否顺序有问题。查看网上资料。先启动zookeeper集群:zkServer.sh start再启动hdfs集群 :start-dfs.sh问题解决。!!!!...原创 2019-04-10 09:42:20 · 962 阅读 · 0 评论 -
如何连接和配置hive2服务
HiveServer2参考https://blog.csdn.net/zhanglh046/article/details/78572926,另外这里有很多参数,这里我只是说明如何开启HIVE2。HiveServer2(HS2)是一种能使客户端执行Hive查询的服务。它有客户端和服务端。既然他有客户端和服务端,所以分两步开启HS2:HiveServer2使用开启客户端:$ b...原创 2019-04-22 19:28:27 · 1038 阅读 · 0 评论 -
markdown代码块如何高亮
markdown里面对代码块的引用语法是三个撇,就可以标注代码块的语言。使用方法:效果(使用sql)select ip,url,max(access_time) from t_pv_loggroup by ip,url;参考:https://blog.csdn.net/shepherd_dirk/article/details/84646379...原创 2019-04-22 21:03:11 · 5239 阅读 · 1 评论 -
hadoop HA的namenode 如何手动切换 active
好文章:https://www.cnblogs.com/hxsyl/p/6039466.html另外强调下:这个配置是在 hdfs-site.xml配置。另外如何配置了手动,那么每一次启动都得手动激活namenode节点。 hdfs haadmin -transitionToActive nn1 ...原创 2019-04-23 12:01:25 · 5152 阅读 · 1 评论 -
hivesever2查询方式和 hive中不太一样~
是原创 2019-04-23 12:36:27 · 314 阅读 · 1 评论 -
HBase的布隆过滤器
这里有好文:https://www.jianshu.com/p/2f696bbffb98但是要强调几点:在使用布隆过滤器时,需要注意两个问题:什么时候应该使用布隆过滤器?根据上面的描述,布隆过滤器的主要作用,是帮助HBase跳过那些显然不包括所查找数据的底层文件。那么,当所查找的数据均匀分布在所有文件中(当用户定期更新所有行时,就可能导致这种情况),布隆过滤器的作用就微乎其微,反而浪费了存...原创 2019-04-27 21:05:36 · 207 阅读 · 0 评论 -
Qlik Sense如何连接Impala
废话不多说,使用impala速度比hive要更快。在Qlik更适合,数据多的情况下还是先要把数据聚合完,再用Qlik去读。点击加载我没有设置密码的只用填这几项就行...原创 2019-08-19 19:04:27 · 270 阅读 · 0 评论