大数据入门
文章平均质量分 57
「已注销」
今天能做的事情,不要拖到明天!
展开
-
Linux的安装
虚拟机:VMware Workstation 12 Pro Linux镜像:CentOS-7-x86_64-Minimal-1611.iso 安装注意事项:1、选择自定义安装2、将虚拟磁盘存储为单个文件3、设置系统时间,打开网络,设置root用户密码,新建用户并将其赋予管理员权限开启虚拟机,输入登录的用户名和密码,使用该用户进入Linux系统。 ...原创 2018-07-25 11:23:00 · 84 阅读 · 0 评论 -
使用脚本同步文件
1、配置root用户的ssh免密登陆1)su root2)ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa3)ssh-copy-id root@s101(s102,s103,s104)2、将所有节点的"jps"命令创建符号链接:sudo ln -s /soft/jdk/bin/ /usr/local/bin/jps3、nano xcall.sh ...原创 2018-08-02 19:57:13 · 691 阅读 · 0 评论 -
序列化
序列化基础:1、串行化:将结构化对象转换成字节流,可用于进程间通信和永久存储2、在Text中,输入和输出的文本编码方式必须为UTF-8!3、hadoop序列文件是由序列化的"k-v"对组成,而k和v即hadoop的writable格式SequenceFile:序列文件,用于包装文本文件(日志文件)1、SeqFile的特性:(1)扁平化文件,包括二进制的k-v(2)可读可...原创 2018-08-05 23:01:59 · 214 阅读 · 0 评论 -
HBase的安装和配置
hbase和hive:hbase: 随机访问和实时读写,数据库,不支持分析hive:基于MR的离线计算,数据仓库,支持分析安装hbase:1、tar -zxvf hbase-1.2.6-bin.tar.gz -C /soft/2、ln -s hbase-1.2.6 hbase3、sudo nano /etc/profile,添加一下内容# hbase环境变量expo...原创 2018-08-12 14:38:05 · 757 阅读 · 0 评论 -
Hadoop高可用配置
多目录配置:1、namenode多目录配置:用于冗余,存储多个镜像文件副本(1)nano /soft/hadoop/etc/hadoop/hdfs-site.xml,添加以下内容:<property> <name>dfs.namenode.name.dir</name> <value>/home/centos/hadoo...原创 2018-08-03 20:54:12 · 282 阅读 · 0 评论 -
配置RS的高可用
0、stop-yarn.sh ====== 关闭yarn集群1、nano /soft/hadoop/etc/hadoop/yarn-site.xml,添加以下内容:<property> <name>yarn.resourcemanager.ha.enabled</name> <value>true</value>...原创 2018-08-15 21:09:04 · 469 阅读 · 0 评论 -
HBase的简单API编程
0、下载所需jar包<dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId> <version>1.2.6</version></dependency&a原创 2018-08-13 15:11:37 · 708 阅读 · 0 评论 -
Phoenix的配置及使用
0、设计理念(1)解决HBase不支持创建索引、不支持聚合函数的问题(2)Phoenix是架构在HBase上的JDBC工具,使用HBase的API和SQL语句对HBase表进行增删改查(3)使用比Hive快很多,兼具了HBase的快速、SQL语句和聚合函数1、安装配置(1)tar -zxvf apache-phoenix-4.10.0-HBase-1.2-bin.tar.gz ...原创 2018-08-19 16:17:42 · 4018 阅读 · 0 评论 -
HDFS写入过程
HDFS写入过程分析:0、相关概念:(1)chunk:小块,hdfs文件系统中的最小单位,大小为512字节(2)packet:包,基础数据会切割成很多packet,通过数据队列进行数据发送,block是由packet组成的,packet=(chunk+checksum) x 126(3)checksum:默认校验算法是CRC32C算法,每隔512字节进行校验,产生4字节的校验和...原创 2018-08-08 22:20:33 · 559 阅读 · 0 评论 -
HBase插入数据编程
0、概述(1)数据通过put对象进行发送,每put一次发送一次,发送时以mutator形式,(2)每次发送都将对象封装成linkedList,再进行一次flush,即一次rpc通信1、每次put一条数据public void putData1() throws Exception { //初始化HBase 的conf Configuration conf = HB...原创 2018-08-13 19:47:01 · 1317 阅读 · 0 评论 -
HBase按条件查询编程
1、行过滤,打印显示行号小于等于row010的所有行数据public void scanData1() throws Exception{ //初始化HBase的conf Configuration conf = HBaseConfiguration.create(); //通过连接工厂创建连接 Connection conn = ConnectionFact...原创 2018-08-13 20:01:40 · 2399 阅读 · 0 评论 -
HBase的缓存和批量处理
1、cache,面向行级操作,只影响效率!(1)每一个next()调用都会为每行数据生成一个单独的RPC请求,当单元格数据小时,这样做的性能不会很好,我们可以一次RPC请求获取多行数据,这样的方法由扫描器缓存实现,默认情况下,该缓存是关闭的。编程时可在两个层面打开扫描器缓存:表层面和扫描层面。(2)代码public void TestCache() throws Exception{...原创 2018-08-13 22:46:15 · 1217 阅读 · 0 评论 -
HBase详解
1、请求流程(1)当一个表过大时(默认配置是超过10G),HBase会将该表切分成多个region,每个region是由一个regionserver负责管理,当有读写请求时,无需联系master,直接联系相对应的regionserver进行处理。(2)表的元数据是由"hbase:meta"表负责管理的,"hbase:meta"表的元数据信息由zookeeper负责管理,在"meta-reg...原创 2018-08-15 20:47:56 · 222 阅读 · 0 评论 -
Hadoop压缩编解码器
0、压缩编解码器总结压缩格式 工具 算法 扩展名 是否可切分 所对应的类 优势 DEFALTE 无 DEFLATE .deflate 否 org.apache.hadoop.io.compress.DefaultCodec 压缩比高 gzip gzip DEFLATE .gz 否 or...原创 2018-08-07 10:53:21 · 581 阅读 · 0 评论 -
Linux常用命令
reboot ====== 重启Linux操作系统ls ====== 列出当前目录下的文件或文件夹ls -a ====== 列出当前目录下的所有文件,包括隐藏文件ls -l ====== 列出当前目录下文件的详细信息ll ====== 列出当前目录下文件的详细信息,ls -l的简写形式ls --help ====== 查看ls命令的帮助信息cd ====== 切换目录,即进...原创 2018-07-25 11:56:08 · 239 阅读 · 0 评论 -
Linux常见问题解决方案
查看IP地址没有显示:1、su root2、cd /etc/sysconfig/network-scripts/3、 vi ifcfg-ens334、设置ONBOOT="yes"5、rebootsudo不能用:1、su root2、visudo3、在"root ALL=(ALL) ALL"下一行添加"centos ALL=(ALL) ALL"4、保存退出...原创 2018-07-25 12:17:15 · 223 阅读 · 0 评论 -
Linux基础知识
目录:/bin ====== 原始bin目录 (Linux内核级的命令)/usr/bin ====== 厂商级bin目录 (厂商自定义的)centos将原始bin和厂商级bin融合在厂商级bin里,用于存放日常使用的命令/usr/local/bin ====== 用户级bin目录(自己写的脚本放这里)/sbin ====== 系统级bin目录(系统级命令放这儿,比如ip)/...原创 2018-07-25 17:02:41 · 93 阅读 · 0 评论 -
编写Shell脚本
获取变量的方式:1、echo $PATH2、echo ${PATH}3、echo "$PATH"参数的提取:$# ====== 参数的个数$n ====== 第n个参数$0 ====== 当前脚本名称$@ ====== 取出所有参数shift ====== 参数左移执行过程:1、创建一个脚本文件:touch abc.sh2、编写脚本内容(单独讲解)...原创 2018-07-28 15:42:23 · 887 阅读 · 0 评论 -
Linux常用配置
配置主机名:1、sudo nano /etc/hostname2、将localhost.domain修改为s100(自己喜欢的主机名即可)3、保存退出4、reboot配置静态IP:1、cd /etc/sysconfig/network-scripts2、sudo nano ifcfg-ens333、设置BOOTPROTO="static"4、在最后一行下边添加一...原创 2018-07-25 19:52:58 · 287 阅读 · 0 评论 -
NetCat传输数据
必须关闭防火墙!!!Linux关闭防火墙:systemctl status firewalld ====== 查看Linux防火墙状态systemctl stop firewalld ====== 关闭Linux防火墙systemctl start firewalld ====== 开启Linux防火墙systemctl restart firewalld ====== 重启L...原创 2018-07-28 20:59:18 · 1835 阅读 · 0 评论 -
Hadoop三种模式
本地模式(使用的Linux存储系统):1、tar -zxvf hadoop-2.7.3.tar.gz -C /soft2、cd /soft3、ln -s hadoop-2.7.3 hadoop4、sudo nano /etc/profile5、在最后一行下边添加以下内容:export HADOOP_HOME=/soft/hadoopexport PATH=$PATH:$...原创 2018-07-29 23:09:02 · 466 阅读 · 0 评论 -
Hadoop启动过程
1、hadoop四大模块:(1)hadoop common:通用模块,是hadoop其他模块的基础,对应core-site.xml文件fs.defaultFS------hdfs://s101 ====== 指定hadoop的文件系统,hdfs文件系统hadoop.tmp.dir------/home/centos/hadoop ====== hadoop工作目录位置(2)hdfs...原创 2018-07-30 22:25:39 · 2089 阅读 · 0 评论 -
Hive自定义函数
0、自定义函数类型(1)UDF:user define function,输入单行,输出单行,类似于 format_number(age,'000')(2)UDTF:user define table-gen function,输入单行,输出多行,类似于 explode(array);(3)UDAF:user define aggr function,输入多行,输出单行,类似于 sum...原创 2018-08-11 20:34:10 · 744 阅读 · 0 评论 -
Hive分析函数
分析函数1、窗口函数(开窗函数),关键字:over(0)基础知识2 preceding ====== 前两行2 following ====== 后两行current row ====== 当前行unbounded preceding ====== 无上限unbounded following ====== 无下限(1)表user_par的结构和数据如下图(2)以行...原创 2018-08-09 20:36:53 · 5241 阅读 · 0 评论 -
Hive高级聚合函数
0、基础知识(1)pv:page view(页面访问量)(2)uv:user view(访问人数)(3)uv表的数据如下(4)统计每个月的用户浏览量,"distinct"关键字是去除重复的值select month, count(distinct id) from uv group by month;1、union all:表联合操作eg:统计每天和每月的用户...原创 2018-08-09 21:48:38 · 2010 阅读 · 0 评论