- 博客(131)
- 收藏
- 关注
转载 hive 连接(join)查询
1、内连接hive> select b.*,a.name from userinfo2 b,userinfo a where a.userid=b.userid;hive> select b.*,a.name from userinfo2 b join userinfo a on a.userid=b.userid;2、外连接#左联select b....
2019-03-09 22:27:00
273
转载 hive 排序和聚集
1、order by 是对数据进行全排序,属于标准排序语句order by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序)只有一个reducer,会导致当输入规模较大时,需要较长的计算时间与mysql中 order by区别在于:在 strict 模式下,必须指定 limit,否则执行会报错• 使用命令set hive.mapre...
2019-03-09 16:35:00
129
转载 hive 导入数据
1、load dataload data local inpath "/home/hadoop/userinfo.txt" into table userinfo;load data inpath "/mysql/syslog2/part-m-00000" into table syslog;2、inserthive> insert into use...
2019-03-08 23:02:00
115
转载 hive 分区表和分桶表
1、创建分区表hive> create table weather_list(year int,data int) partitioned by (createtime string,area string) row format delimited fields terminated by ",";修改表:hive> alter table w...
2019-03-05 22:57:00
100
转载 mysql 查看数据库大小
use information_schema;查看所有select concat(round(sum(data_length/1024/1024),2),'MB') as data from tables;查看指定数据库select concat(round(sum(data_length/1024/1024),2),'MB') as data from tables whe...
2019-03-01 18:23:00
71
转载 hive 安装
1、下载地址:http://mirrors.hust.edu.cn/apache/环境变量:vi /etc/profile追加#set hive environmentexport HIVE_HOME=/opt/apache-hive-3.1.1export PATH=$PATH:$HIVE_HOME/bin2、conf配置解压后进入hi...
2019-03-01 16:51:00
133
转载 hadoop 使用Avro排序
在上例中,使用Avro框架求出数据的最大值,本例使用Avro对数据排序,输入依然是之前的样本,输出使用文本(也可以输出Avro格式)。1、在Avro的Schema中直接设置排序方向。dataRecord.avsc,放入resources目录下:{ "type":"record", "name":"WeatherRecord", "doc":"A ...
2019-02-26 14:13:00
131
转载 hadoop 使用Avro求最大值
在上例中:hadoop MapReduce辅助排序解析,为了求每年的最大数据使用了mapreduce辅助排序的方法。本例中介绍利用Avro这个序列化框架的mapreduce功能来实现求取最大值。Avro的优点在这里不做扩展。1、依赖引入,不使用插件 <dependency> <groupId>org.apac...
2019-02-26 11:21:00
112
转载 hadoop MapReduce辅助排序解析
1、数据样本,w1.csv到w5.csv,每个文件数据样本2000条,第一列是年份从1990到2000随机,第二列数据从1-100随机,本例辅助排序目标是找出每年最大值,实际上结果每年最大就是100,但是这里通过mapreduce辅助排序方式来找。1999,711994,571995,331993,441994,991994,831995,59... ...
2019-02-21 15:40:00
136
转载 hadoop 使用map将SequenFile里的小文件解压出来
上例中将HDFS里小文件通过mapper压缩到一个文件中,本例将这些小文件解压出来。mapreduce可以按SequenceFile的key进行分片。1、mapperpublic class MultiOutputMapper extends Mapper<Text,BytesWritable,NullWritable,Text> { private...
2019-02-19 16:11:00
108
转载 hadoop 使用map合并小文件到SequenceFile
上一例是直接用SequenceFile的createWriter来实现,本例采用mapreduce的方式。1、把小文件整体读入需要自定义InputFormat格式,自定义InputFormat格式需要先定义RecordReader读取方式,为了整体读入,RecordReader使用一次性读入所有字节。1.1 继承RecordReader泛型,重写这个类。import or...
2019-02-18 16:34:00
163
转载 hadoop 将HDFS上多个小文件合并到SequenceFile里
背景:hdfs上的文件最好和hdfs的块大小的N倍。如果文件太小,浪费namnode的元数据存储空间以及内存,如果文件分块不合理也会影响mapreduce中map的效率。本例中将小文件的文件名作为key,其内容作为value生成SequenceFile1、生成文件 //将目标目录的所有文件以文件名为key,内容为value放入SequenceFile中 //第一...
2019-02-15 14:45:00
381
转载 hadoop SequenceFile示例
1、写入,SequenceFile的key和value不一定是Writable,只要能被Serialization序列化和反序列化就可以。 private static final String[] DATA = { "One, two, buckle my shoe", "Three, four, shut the door"...
2019-02-14 16:39:00
94
转载 hadoop 把mapreduce任务从本地提交到hadoop集群上运行
MapReduce任务有三种运行方式:1、windows(linux)本地调试运行,需要本地hadoop环境支持2、本地编译成jar包,手动发送到hadoop集群上用hadoop jar或者yarn jar方式运行。3、本地编译环境在IDE里直接提交到集群上运行,实际上这种方式就是第二种方式的变种。本例说的就是第三种方式1)核心的部分就是Confirguratio...
2019-02-02 21:04:00
1859
转载 hadoop 编码实现文件传输、查看等基本文件控制
hadoop集群搭建参考:https://www.cnblogs.com/asker009/p/9126354.html1、创建一个maven工程,添加依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" x...
2019-02-02 12:30:00
183
转载 windows下本地调试hadoop代码,远程调试hadoop节点。
1、在github上搜索winutils下载winutils.exe相关的一套文件,下载对应hadoop的版本。(https://github.com/steveloughran/winutils)2、将所有文件复制到hadoop的bin目录下3、将hadoop.dll复制到windows\system32目录下4、添加环境变量HADOOP_HOME指向hadoop目录5...
2019-02-02 12:21:00
282
转载 hadoop的第一个hello world程序(wordcount)
在hadoop生态中,wordcount是hadoop世界的第一个hello world程序。wordcount程序是用于对文本中出现的词计数,从而得到词频,本例中的词以空格分隔。关于mapper、combiner、shuffler、reducer等含义请参照Hadoop权威指南里的说明。代码参考:https://github.com/asker124143222/wordc...
2019-01-30 12:34:00
357
转载 CentOS7 修改主机名
1、使用hostname命令修改,临时的,重启失效。2、修改/etc/sysconfig/network,永久的,重启生效。[root@hp4411s ~]# cat /etc/sysconfig/network# Created by anacondaNETWORKING=yes #使用网络HOSTNAME=hp4411s.home.com3、如果修改/...
2019-01-28 14:25:00
77
转载 kaptcha验证码在windows下正常,在linux下无法显示
有几种情况,记录备忘:1、两个环境字体不一样,linux环境下可能没有字体,重新安装字体即可。2、tomcat等容器下没有temp目录,手动建立即可。3、如果报找不到类的错误,检查JDK是否正确,以及检查是否具备显示图片验证码需要图形组件。4、还有一种是没有任何报错的,不显示图片,可能的情况是:集成了shiro权限管理,但是没有给验证码配置匿名权限,或者是放入容器的时...
2019-01-28 00:12:00
620
转载 CentOS 安装tomcat
1、确保JDK已经安装,版本在1.8以上2、到网管下载安装wget http://mirrors.tuna.tsinghua.edu.cn/apache/tomcat/tomcat-9/v9.0.14/bin/apache-tomcat-9.0.14.tar.gztar -xzvf apache-tomcat-9.0.14.tar.gz3、查看tomcat配置...
2019-01-27 23:12:00
73
转载 mysql 迁移 mariadb
背景:mysql5.7数据库安装在windows环境中,数据需要迁移到CentOS7.4的mariadb5.5中。web应用是采用springboot2.x开发的,迁移数据完成后,还需要简单修改一些应用的配置。1、在windows环境中使用mysqldump -u root -p busdata > D:\data\busdata.dump命令将数据库busdata里的所有...
2019-01-26 22:47:00
239
转载 CentOS 安装MariaDB
1、安装#同时安装mariadb和mariadb-server[root@bigdata-senior01 yum.repos.d]# yum -y install mariadb mariadb-server#启动服务[root@bigdata-senior01 ~]# systemctl start mariadb#mariadb其实就是mysql的一个分支#...
2019-01-24 17:22:00
89
转载 CentOS httpd服务(Apache)
1、从ISO镜像安装,Apache 服务的软件包名称为 httpd#检查源配置[root@localhost media]# cat /etc/yum.repos.d/CentOS-Media.repo # CentOS-Media.repo## This repo can be used with mounted DVD media, verify the ...
2019-01-21 21:56:00
243
转载 CentOS 不间断会话(ssh关闭后如何保证程序继续运行)(nohup和screen)
当使用ssh与远程主机的会话被关闭时,在远程主机上运行的命令也随之被中断。就是ssh 打开以后,bash等都是他的子程序,一旦ssh关闭,系统将所有相关进程杀掉!! 导致一旦ssh关闭,执行中的任务就取消了。守护进程不受此影响, 因为守护进程比较特殊, 不属于sshd这个进程组 而是单独的进程组,所以就算关闭了ssh,和他也没有任何关系。解决办法:1、使用nohup命令来...
2019-01-21 12:39:00
1588
转载 CentOS scp远程拷贝
scp(secure copy)是一个基于 SSH 协议在网络之间进行安全传输的命令,其格式为“scp [参数] 本地文件 远程帐户@远程 IP 地址:远程目录”。1、主要参数-v 显示详细的连接进度-P 指定远程主机的 sshd 端口号-r 用于传送文件夹-6 使用 IPv6 协议2、用例#拷贝本地文件到远程主机[root@loc...
2019-01-21 10:29:00
332
转载 CentOS 双网卡绑定实现平衡负载
绑定两块网卡主要为了解决网卡故障、负载均衡等问题。1、在vm加一块网卡,登录后检查网卡是否识别。分别用ip addr和nmcli查看网卡的情况[root@bigdata-senior01 ~]# ip addr1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN qlen 1...
2019-01-18 23:07:00
237
转载 CentOS 访问控制列表(tcp wrappers)
1、TCP Wrappers是一个工作在应用层的安全工具,它只能针对某些具体的应用或者服务起到一定的防护作用。比如说ssh、telnet、FTP等服务的请求,都会先受到TCP Wrappers的拦截。它能够根据来访主机的地址与本机的目标服务程序作出允许或拒绝的操作。2、TCP Wrappers 服务的防火墙策略由两个控制列表文件所控制,用户可以编辑允许控制列表文件来放行对服务的请求流...
2019-01-18 11:15:00
562
转载 CentOS7 防火墙配置firewall-cmd
firewalld(Dynamic Firewall Manager of Linux systems,Linux系统的动态防火墙管理器)服务是默认的防火墙配置管理工具。firewall-cmd 是 firewalld的字符界面管理工具,firewalld是centos7的一大特性,最大的好处有两个:支持动态更新,不用重启服务;第二个就是加入了防火墙的“zone”概念。firew...
2019-01-17 22:32:00
320
转载 CentOS LVM逻辑卷管理
在CentOS 挂载(U盘NTFS格式,新硬盘,增加交换分区,扩展根分区等)中扩展根分区部分用的就是LVM逻辑卷管理来进行扩展的。1、为什么会有逻辑卷管理传统磁盘管理是直接对硬盘分区进行访问,你如果磁盘不够了,再加一块硬盘,然后分区格式化,系统和应用直接对分区后的硬盘直接访问。这个访问是独立,脱离原有目录系统的,比如在windows系统里经常出现C盘不够了,当时分区没想到wi...
2019-01-17 16:08:00
223
转载 CentOS 磁盘阵列(raid10)
1、通过mdadm命令进行磁盘阵列部署mdadm是multiple devices admin的简称,它是Linux下的一款标准的软件 RAID 管理工具如果没有mdadm命令,通过yum安装一下yum install -y mdadmmdadm的主要参数-a 检测设备名称-n 指定设备数量-l 指定 RAID 级别-C 创建-v ...
2019-01-16 18:11:00
699
转载 CentOS 挂载(U盘NTFS格式,新硬盘,增加交换分区,扩展根分区等)
1、挂载fat或者fat32分区的U盘如果是用VM安装的linux,在vm里挂载U盘有两个前提:第一,主机里的service要启动:第二,U盘是连接到虚拟机,而不是主机,需要确认这点:2、使用fdisk命令先检查一下U盘是否已经加载fdisk -l设备/dev/sdb1 就是插入的U盘,FAT32分区加载:[root@bigdata...
2019-01-14 23:07:00
540
转载 CentOS 普通用户提升root权限
1、sudo命令可以使普通用户具备root用户的权限,使用前,需要先配置/etc/sudoers文件。#sudoers文件是只读,一般情况下都是用visudo来修改,visudo也一定程度上可以保证修改sudoers文件是安全的,避免同时修改的冲突情况[root@bigdata-senior01 ~]# ll /etc/sudoers-r--r----- 1 root r...
2019-01-13 22:25:00
521
转载 CentOS ACL
ACL:访问控制列表(Access Control List)。一般来说权限是针对某一类用户设置的。例如:一个文件只有拥有者、组、其他用户三种设置方式,如果希望对某个指定的用户进行单独的权限控制,就需要用到文件的ACL。基于普通文件或目录设置 ACL 就是对指定的用户或用户组设置文件的操作权限。如果针对某个目录设置了 ACL,则目录中的文件会继承其 ACL;若针对文件...
2019-01-12 23:02:00
90
转载 CentOS 文件隐藏属性
1、chattr用于配置文件的隐藏属性语法:chattr [-RVf] [-+=aAcCdDeijsStTu] [-v version] files...选项与参数:+:增加某个特殊参数,其他原始存在参数不动;-:移除指定参数,其他参数不变;=:设定为chattr后面输入的参数A:当设定了A这个属性时,若你有存取此文件/目录时,他的...
2019-01-12 21:55:00
641
转载 CentOS 文件特殊权限SUID,SGID,SBIT
1、SUID ,是一种对二进制程序进行设置的特殊权限,可以让二进制程序的执行者临时拥有所有者的权限(仅对拥有执行权限的二进制程序有效)。(1)SUID权限仅对二进制程序有效;(2)本权限仅在执行该程序的过程中有效;(3)执行者将具有该程序所有者的权限。场景1:在Linux中,所有账号的密码记录在/etc/shadow这个文件中,并且只有root可以读和强制写入这个...
2019-01-11 16:47:00
316
转载 CentOS 用户管理useradd、usermod等
1、创建新用户useradd,默认的用户家目录会被存放在/home 目录中,默认的 Shell 解释器为/bin/bash,而且默认会创建一个与该用户同名的基本用户组。 主要参数:-d 指定用户的家目录(默认为/home/username)-e 账户的到期时间,格式为 YYYY-MM-DD.-u 指定该用户的默认 UID-g 指定一个初始的用户基本组(...
2019-01-11 12:12:00
271
转载 CenOS 定时任务,at和crontab
1、一次性定时任务,只执行一次语法:# at [参数] [时间] at> 执行的指令 退出at命令 ctrl+d1.1 mini安装版本可能没有预装at安装atyum -y install at启动atd服务,是计划任务的守护进程systemctl start atd1.2 参数-m :当指定的任务被完成之...
2019-01-10 16:34:00
116
转载 CentOS expr和let
1、expr,用于计算变量等用法:expr 表达式用例1:#运算符号和参数之间要有空格分开;[es@bigdata-senior01 ~]$ expr 2 + 3 5#乘号(*)需要用 \ ,"",''来转义[es@bigdata-senior01 ~]$ expr 2 \* 510#中间表达式需要用反引号括起来[es@bigd...
2019-01-10 10:57:00
197
转载 CentOS 转义字符
常用转义字符反斜杠(\):使反斜杠后面的一个变量变为单纯的字符串。单引号(''):转义其中所有的变量为单纯的字符串。双引号(""):保留其中的变量属性,不进行转义处理。反引号(``):把其中的命令执行后返回结果(1左边的那个和波浪线一起的按键),``括起来的内容代表一个变量用例price=5[es@bigdata-senior01 ~]$ echo...
2019-01-08 16:04:00
974
转载 CentOS yum安装软件包
yum(Yellowdog Update Modifie)命令是在Fedora和RedHat以及SUSE中基于rpm的软件包管理器,它可以使系统管理人员交互和自动化地更细与管理RPM软件包,能够从指定的服务器自动下载RPM包并且安装,可以自动处理依赖性关系,并且一次安装所有依赖的软体包,无须繁琐地一次次下载、安装。1、基本格式Usage: yum [options] COMM...
2019-01-08 14:55:00
179
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅