![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 70
俊杰梓
人的一切痛苦,本质上都是对自己无能的愤怒!
写的不好,请多关照
============
微信:15234940672
展开
-
Hadoop各配置文件详解
1、Hadoop各目录说明文件夹名称作用bin存放对hadoop相关服务(HDFS,YARN)进行操作的脚本sbin存放启动或停止hadoop相关服务的脚本etchadoop的配置文件目录,存放hadoop的配置文件lib存放hadoop的本地库(对数据进行压缩解压缩功能)share存放hadoop的依赖jar包和文档,文档可以被删除掉2、各个配置文件的作用配置文件的名称作用core-site.xml核心配置文件,主要定义原创 2021-10-06 10:41:31 · 10938 阅读 · 0 评论 -
Linux中的用户与权限
1、Linux中的用户Linux作为一种多用户的操作系统(服务器系统),允许多个用户同时登陆到系统上,并响应每个用户的请求。任何需要使用操作系统的用户,都需要一个系统账号,账号分为:管理员账号与普通用户账号。在Linux中,操作系统根据UID来判断用!根据UID来判断用户! 而不是用户名!只要id为0就是管理员,哪怕有多个id为0 的账号系统在新建账号时,会根据账号类型,自动分配递增账号的UID与GID (用户身份编号,组编号),也可自行分配。通常情况下,应当保证UID与GID唯一且不重复。在Li原创 2021-10-06 10:30:50 · 1861 阅读 · 0 评论 -
Linux中查找文件
1、find 命令1.1、基本语法使用 Linux find 命令可以用不同的搜索标准如名字、类型、所属人、大小等来搜索目录树。基本语法如下:[root@hadoop01 ~]# find -help用法: find [-H] [-L] [-P] [-Olevel] [-D help|tree|search|stat|rates|opt|exec] [path...] [expression]默认路径为当前目录;默认表达式为 -print表达式可能由下列成份组成:操作符、选项、测试表达式以及动原创 2021-10-06 10:29:42 · 409 阅读 · 0 评论 -
CentOS8.2时间同步
CentOS8.2 已经没有ntp时间同步服务了,使用的是chrony。1、修改配置文件vim /etc/chrony.conf将第三行注释,添加第四行# Use public servers from the pool.ntp.org project.# Please consider joining the pool (http://www.pool.ntp.org/join.html).# pool 2.centos.pool.ntp.org iburstserver 192.168.原创 2021-10-06 10:23:35 · 534 阅读 · 0 评论 -
Linux自定义脚本整合
1、集群分发文件应用场景我们经常需要将新建的活着修改后的文件,循环复制文件到所有节点的相同目录下,一次一次执行scp命令显得并不那么友好。基础知识(a)rsync命令原始拷贝:[root@bigdata801 hadoop-3.3.1]# rsync -av /opt/module/hadoop-3.3.1/ bigdata802:/opt/module/hadoop-3.3.1/(b)期望脚本:xsync 要同步的文件名称(c)期望脚本在任何路径都能使用(脚本放在声明了全局环境变量的路原创 2021-10-06 10:14:43 · 1043 阅读 · 0 评论 -
scp、rsync与集群分发
1、scp(secure copy)安全拷贝定义scp可以实现服务器与服务器之间的数据拷贝。(from server1 to server2)基本语法scp -r $pdir/$fname $user@$host:$pdir/$fname命令 递归 要拷贝的文件路径/名称 目的地用户@主机:目的地路径/名称实操在 bigdata801,将文件从 bigdata801 堆到 bigdata802[root@bigdata801 module原创 2021-10-06 10:12:58 · 349 阅读 · 0 评论 -
CentOS8.2安装Hadoop3.3.1
1、安装Hadoop之前,环境的配置1、配置免密登录当我们远程登录一个机子的时候,ssh hostname(ip) 会发现需要输入密码,每次输入密码未免太麻烦,就需要我们配置免密,如果不配的话,传输文件的时候输密码会输到怀疑人生。安装SSHyum install -y openssh-clients首先产生公钥和私钥ssh-keygen -t rsa查看产生的公钥和私钥[root@bigdata801 ~]# cd .ssh/[root@bigdata801 .ssh]# lltot原创 2021-10-06 10:11:22 · 559 阅读 · 0 评论 -
数据库通过存储过程批量添加注释(模板为oracle)
在操作数据库时,我们时常需要给数据库中的表名以及字段名添加注释,如果去写comment语句,或者是直接拼出来一条一条去执行,亦或者使用一些可视化工具去添加,都太过于繁琐。在此背景下,我想到了一个比较方便的、节省成本的方法与大家分享,就是维护一个注释表,然后编写一个存储过程,存储过程中自动拼成一条一条的comment sql语句,然后利用游标去循环执行,效率非常高,而且维护起来也方便,具体操作步骤如下:1、建注释表create table TABCOL_COMMENTS( TAB_NAME原创 2020-08-03 17:30:00 · 7211 阅读 · 5 评论 -
HBase详细介绍
1.1、什么是HBaseHBase的原型是Google的BigTable论文,受到了该论文思想的启发,目前作为Hadoop的子项目来开发维护,用于支持结构化的数据存储。官方网站:http://hbase.apache.org-- 2006年Google发表BigTable白皮书-- 2006年开始开发HBase-- 2008年北京成功开奥运会,程序员默默地将HBase弄成了Ha...原创 2019-10-11 21:19:43 · 3156 阅读 · 0 评论 -
大数据 hadoop 经典面试题 | 一
1 . 下面哪个程序负责 HDFS 数据存储?(C)A.NameNodeB.JobTrackerC.DataNodeD.SecondaryNameNodeE.tasktracker2 . HDFS 中的 block 默认保存几份?(A)A.3 份B.2 份C.1 份D.不确定3 . 下列哪个程序通常与 NameNode 在一个节点启动?(D)A.Se...原创 2018-09-05 18:53:52 · 1673 阅读 · 0 评论 -
彷徨 | zookeeper命令行客户端操作
首先 , 看一下 bin 下面有哪些命令可以发现 , zkCli.sh 是客户端命令输入该命令 , 即可进入客户端1、使用 ls 命令来查看当前 ZooKeeper 中所包含的内容:ls /只有一个zookeeper是其自带的2、创建一个新的 znode ,使用 create /zk myData 。这个命令创建了一个新的 znode 节点“ zk ”以及与它关...原创 2018-09-03 16:13:13 · 534 阅读 · 0 评论 -
彷徨 | Hive---报表统计
联级累计报表查询有如下数据: A,2015-01-08,5 A,2015-01-11,15 B,2015-01-12,5 A,2015-01-12,8 B,2015-01-13,25 A,2015-01-13,5 C,2015-01-09,10 C,2015-01-11,20 A,2015-02-10,4 A,2...原创 2018-08-30 09:21:12 · 2120 阅读 · 0 评论 -
彷徨 | HBase的详细介绍(概念以及特性)
1、什么是hbaseHBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。HBASE的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。HBASE是Google Bigtable的开源实现,但是也有很多不同之处。比如:Google Bigta...原创 2018-09-06 11:15:22 · 17559 阅读 · 5 评论 -
彷徨 | zookeeper的安装
1 下载安装包 , 上传到 Linux 并解压到指定目录安装之前最好做一下时间同步下载地址 : http://mirrors.shu.edu.cn/apache/zookeeper/嗯 , 挑一个自己觉得长得好看的下载长传到Linux机器 解压到指定目录 tar -zxvf zookeeper-3.4.6.tar.gz -C /usr/local/2 修改配置...原创 2018-09-03 09:52:56 · 324 阅读 · 0 评论 -
彷徨 | HBase的详细API操作DML
建表 /** * 建表 * @throws Exception */ @Test public void testCreateTable() throws Exception { //加载配置文件 Configuration conf = HBaseConfiguration.create(); conf.set("hbase.zookeeper.quoru...原创 2018-09-05 11:19:08 · 505 阅读 · 0 评论 -
彷徨 | Sqoop的安装,简介与简单使用
1 Sqoop的安装首先,sqoop的下载地址:http://sqoop.apache.org/点击download点击这个链接即可下载将sqoop下载到本地以后 , 传到 Linux 平台 , 然后解压到自己的指定目录 , 修改配置文件 , 配置sqoop到 /etc/profile 变量里面 , 在lib下面添加连接数据库的jar包因为原来的evn是一个模板 , 所...原创 2018-09-02 21:01:25 · 480 阅读 · 0 评论 -
彷徨 | Hive---需求:求出连续三天有销售记录的店铺
原始数据 :A,2017-10-11,300A,2017-10-12,200A,2017-10-13,100A,2017-10-15,100A,2017-10-16,300A,2017-10-17,150A,2017-10-18,340A,2017-10-19,360B,2017-10-11,400B,2017-10-12,200B,2017-10-15,600C,20...原创 2018-08-30 11:29:05 · 2766 阅读 · 3 评论 -
彷徨 | HBase基本命令行操作
名称 命令表达式 创建表 create '表名', '列族名1','列族名2','列族名N' 查看所有表 list 描述表 describe ‘表名’ 判断表存在 exists '表名' ...原创 2018-09-04 16:47:36 · 860 阅读 · 0 评论 -
彷徨 | MapReduce框架设计思想图
MapReduce框架设计思想图原创 2018-09-01 20:04:15 · 270 阅读 · 0 评论 -
彷徨 | Hive的SQL--DDL详细操作
Hive的简介与安装见另一篇文章 : https://blog.csdn.net/weixin_35353187/article/details/82154151Hive的三种使用方式 :方式一 : bin/hive 交互式查询方式二 : 启动Hive的网络服务 , 然后通过客户端beeline去连接服务进行查询 : 启动服务 : bin/hiveser...原创 2018-08-29 22:25:43 · 3516 阅读 · 0 评论 -
彷徨 | SQL语句的左外连接 , 右外连接 , 内连接
这里以用户表和订单表数据为例进行解释 : 用户表数据为 : 订单表数据为 : 1.内连接 : 当进行内连接时,系统会自动忽略两个表中对应不起来的数据:select * from t_user u join t_order o on u.name = o.name; 或者select * from t_user u inner join t_order o on u...原创 2018-08-29 14:06:31 · 11969 阅读 · 1 评论 -
彷徨 | zookeeper的详细介绍
什么是zookeeperzookeeper是一个用于降低分布式系统开发过程中节点间协调问题开发难度的工具!该工具解决了分布式系统中 , 节点和节点之间的动态感知问题Zookeeper是一个分布式协调服务;就是为用户的分布式应用程序提供协调服务zookeeper是为别的分布式程序服务的Zookeeper本身就是一个分布式程序(只要有半数以上节点存活,zk就能正常服务)Zookee...原创 2018-09-03 18:33:36 · 547 阅读 · 0 评论 -
彷徨 | Linux多台机器之间的免密登录设置
免密登录:远程登录 ssh hostname(ip)这时我们已经切换过去了 , 但是需要输入密码 , 每次输入密码未免太麻烦 , 就需要我们配置免密登录有时候输入SSH会提示can not find SSH命令,这时需要我们安装SSH安装SSH,输入以下命令即可安装 yum install -y openssh-clients接下来设置免密登录:免密登陆...原创 2018-08-15 20:50:15 · 3632 阅读 · 0 评论 -
虚拟机Linux系统从一个机子拷到另一个机子上,XShell等不能连接解决办法
第一步:1.移除原来的网络适配器2.添加新网络适配器,重新添加3.点击'高级'--->'生成'--->'确定'(把生成的地址记下)4.保存生成的MAC地址,进入虚拟机系统,编辑网卡文件,修改MAC地址,重启服务,重启虚拟机vi/etc/sysconfig/network-scripts/ifcfg-eth0保存退出以后,执行以下命令:s...原创 2019-03-19 16:02:00 · 4661 阅读 · 3 评论 -
大数据实战项目--中国移动运行分析
1、项目背景中国移动公司旗下拥有很多的子机构,基本可以按照省份划分. 而各省份旗下的充值机构也非常的多.目前要想获取整个平台的充值情况,需要先以省为单元,进行省份旗下的机构统计,然后由下往上一层一层的统计汇总,过程太过繁琐,且统计周期太长,且充值过程中会涉及到中国移动信息系统内部各个子系统之间的接口调用,接口故障监控也成为了重点监控的内容之一,为此建设一个能够实时监控全国的充值情况的平台,...原创 2018-10-24 14:13:07 · 24056 阅读 · 19 评论 -
Kafka配置参数详细说明
Kafka的配置文件所在的目录以及需要配置的文件 broker.id 整数,建议根据ip区分 log.dirs kafka存放消息文件的路径, 默认/tmp/kafka-logs port broker用于接收producer消息的...原创 2018-10-10 11:11:30 · 1152 阅读 · 0 评论 -
Hadoop之HDFS设计思想
Hadoop2系列才有的思想,Hadoop1系列设计比较冗余文件系统NameNode1.NameNode是一个中心服务器,单一节点(简化系统的设计和实现),负责管理文件系统的名字空间(namespace)以及客户端对文件的访问;2.副本存放在哪些DataNode上由NameNode来控制,根据全局情况做出块放置决定,读取文件时NameNode尽量让用户先读取最近的副本,降低带块消耗...原创 2018-10-10 08:13:55 · 607 阅读 · 0 评论 -
SparkStreaming,Flink,Storm三大实时框架对比分析
对比分析如果对延迟要求不高的情况下,建议使用Spark Streaming,丰富的高级API,使用简单,天然对接Spark生态栈中的其他组件,吞吐量大,部署简单,UI界面也做的更加智能,社区活跃度较高,有问题响应速度也是比较快的,比较适合做流式的ETL,而 且Spark的发展势头也是有目共睹的,相信未来性能和功能将会更加完善。 如果对延迟性要求比较高的话,建议可以尝试下Fl...原创 2018-10-09 07:57:13 · 3739 阅读 · 0 评论 -
彷徨 | zookeeper的API编程操作(数据的增删改查以及节点的监控)
import java.util.List;import org.apache.zookeeper.CreateMode;import org.apache.zookeeper.KeeperException;import org.apache.zookeeper.WatchedEvent;import org.apache.zookeeper.Watcher;import org....原创 2018-09-07 10:29:20 · 602 阅读 · 0 评论 -
大数据BAT经典面试题 | 二
1、kafka的message包括哪些信息一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。当magic的值为1的时候,会在magic和crc32之间多一个字节的数据:attributes(保存一些相关属性,比如是否压缩、压缩格式等等);如果...原创 2018-09-06 16:54:40 · 1486 阅读 · 1 评论 -
彷徨 | HBase常用过滤器API操作
Before Table table = null; Connection conn = null; @Before public void init() throws Exception { Configuration conf = HBaseConfiguration.create(); conn = ConnectionFactory.createConnection(c...原创 2018-09-06 09:06:51 · 479 阅读 · 2 评论 -
彷徨 | 20 种 HBase 过滤器介绍
使用TScan过滤器进行过滤,20种过滤器进行介绍英文介绍:TScan 使用filter的用法1 操作符合: The client should use the symbols (<, ⇐, =, !=, >, >=) to express compare operators2修饰值符号:BinaryComparator - binary;BinaryPrefix...原创 2018-09-06 07:47:53 · 964 阅读 · 0 评论 -
彷徨 | HDFS核心设计思想图
HDFS核心思想原创 2018-09-01 14:49:19 · 425 阅读 · 0 评论 -
彷徨 | HDFS读写数据流程图
HDFS读数据流程图HDFS写数据流程图原创 2018-09-01 14:07:43 · 414 阅读 · 0 评论 -
彷徨 | Hadoop之HDFS个人浅谈
小白所写 , 写的不好 , 请大神指点目录1 . Hadoop中有三个核心组件 :2 . 大数据的基本概念 : 处理海量数据的核心技术 : 分布式存储的框架:分布式的计算框架:辅助类工具有: 3 . 分布式文件存储系统HDFS 4 . Hadoop集群Shell端操作HDFS的简单API5 . HDFS中角色(NameNode,DataNode,Second...原创 2018-08-25 16:20:04 · 912 阅读 · 0 评论 -
彷徨 | 执行start-dfs.sh后,namenode正常启动 , datenode没有启动
解决启动集群后namenode正常显示,datanode却没启动的问题启动Hadoop2.8.3集群后,遇到namenode启动 , 但是datanode进程没启动,查看日志发现如下报错:java.io.IOException: Incompatible clusterIDs in /home/casliyang/hadoop2/hadoop-2.2.0/metadata/data: na...原创 2018-08-17 16:56:21 · 2417 阅读 · 0 评论 -
彷徨 | MapReduce各种执行(Linux执行,eclipse执行)与读取和存储(从HDFS读取以及从本地读取)
1 . 读取HDFS中的文件 , 利用Linux平台MapReduce框架执行 , 结果写入 HDFS中 .mappackage hadoop_day05.zhang.firstMR;import java.io.IOException;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Lon...原创 2018-08-22 22:33:42 · 878 阅读 · 0 评论 -
彷徨 | Eclipse搭建Maven环境
第一步 : 下载Maven, 解压后将其配置到环境变量中 .解压到一个文件夹中:配置MAVEN_HOME : Path : %MAVEN_HOME%\bin第二步 : 配置Maven参数 : D:\Maven\apache-maven-3.3.9\conf\settings.xml 一个三个配置参需要修改1.下载好的jar包本地存放地址2.下载地址...原创 2018-08-19 10:58:59 · 452 阅读 · 0 评论 -
彷徨 | Linux系统上卸载mysql
可以正常登陆的Mysql1.查看已安装的mysql命令:rpm -qa | grep -i mysql2.卸载mysql命令:yum remove mysql*****使用命令将其全部卸载3.删除mysql文件目录使用命令查看mysql相关的文件目录:find / -name mysql使用rm -rf 命令删除mysql的文件目录至...原创 2018-08-16 19:27:03 · 200 阅读 · 0 评论 -
彷徨 | Navicat连接Linux系统下的Mysql数据库
1 . 进入Linux机器 , 登录并进入mysql如果没有安装mysql,参照 https://blog.csdn.net/weixin_35353187/article/details/81712096启动mysql服务 : service mysqld start或者设置开机自启 : chkconfig mysqld on2.给其他电脑授予链接权限1.use mys...原创 2018-08-16 08:58:39 · 10812 阅读 · 3 评论