- 博客(15)
- 收藏
- 关注
原创 HDFS主要组成部分
HDFS源于分而治之的设计思想,在大数据系统中,为分布式计算框MapReduce,Spark,Flink等提供数据存储服务;主要由主节点NameNode、从节点DataNode,SecondaryNameNode,Client组成。NameNode主要负责元数据的管理以及客户端对文件的访问,周期性地从集群中每个DataNode接受心跳信号和数据块状态报告;DataNode主要是负责数据的读写与存储;SecondaryNameNode负责元数据的同步;Client主要负责数据读写请求的发起。...
2020-11-27 20:11:18 3520
原创 用到的Hive日期函数
自己使用的hive版本为1.2.1获取当前时间current_datecurrent_timestamp当月第几天dayofmonth()当前日期所在月月末last_day()当月第一天date_sub(current_date,dayofmonth(current_date)-1)下个月第一天add_months(date_sub(current_date,dayofmonth(current_date)-1),1)日期增加函数date_add()日期减少函数date_su
2020-11-25 20:06:49 259
原创 开更啦!多折腾折腾
从毕业到现在快4年了,时间流淌,浮躁的心渐渐远了,更愿意静下来去学习工作,接触了很多新的东西,需要认真总结梳理一下了,争取把相关的技术原理与思路写下来,留下自己在学习生活中的痕迹!...
2020-11-24 20:19:22 128
原创 Spark在windows-64位操作系统下环境变量的配置过程(含所需的资源)
为了使已有工程运行速度更快,本人计划采用spark对已有Hive任务进行改造,接下来介绍spark运行在windons-64位环境上的配置过程。一、步骤总览1、配置java-1.8环境变量;2、配置scala-2.11.8环境变量;3、配置hadoop-2.7.3环境变量,其中需要将对应版本的hadoop.dll和winutils.exe文件拷贝到hadoop-2.7.3.tar解压后的bin目录下以及C盘widonws目录下System32目录下(注意版本统一,可以从github上下载);4、如
2020-11-23 19:50:36 293 1
原创 自备Linux命令
常用的Linux命令如下,查看内存 top查看磁盘存储情况 df -h查看磁盘IO读写(yum install iotop) iotop (root执行)直接查看比较高的磁盘读写程序 iotop -o查看端口占用情况 netstat -tunlp | grep 端口号查看报告系统运行时长及平均负载 uptime查看进程 ps -aux查看目录中内容 ls -l进入目录中 cd删除以及递归删除 rm -rf...
2020-11-19 16:56:02 58
原创 Hive执行进行度100%后,数据导入分区路径过程中元数据报错问题的解决
以上问题出现的原因为元数据通信出现异常,主要问题点还是集群与mysql数据库的信息同步出现了问题,暂时的解决办法为:msck repair table + tablename;例如:msck repair table mdw_db.mdw_flow_userbehavior_event_i_d;0.478 seconds后,数据可以查询了。...
2020-11-18 17:30:43 213
原创 Hadoop 1.x集群安装详细教程(3台服务器为演示例)
以上演示例均安装在Red Hat Enterprise Linux-5-X32位的虚拟机上,需要准备3台虚拟机(虚拟硬盘配置为40.0GB以上,虚拟内存1GB以上)且3台虚拟机需要和主机ping通(ip地址位于同一网段),接下来是hadoop 1.x集群的安装过程,注意要关闭防火墙。首先更改主机名和IPvi /etc/sysconfig/network修改/etc/hosts添加:...
2018-09-20 23:15:34 137
转载 MapReduce程序中如何获取文件名
在maper类中Path path = ((FileSplit) context.getInputSplit()).getPath() .getParent();String fileName = path.getParent().toString();引用类为import org.apache.hadoop.fs.Path;import org.apache.hadoop.ma...
2018-09-20 22:35:59 1094
原创 Oracle10g 详细安装教程
在SecureCRT下操作: vi /etc/yum.repos.d/base.repo[Base] name=base baseurl=file:///mnt/Server enabled=1 gpgcheck=0 gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-redhat-release挂载:mount /dev/cdrom /mnt...
2018-09-17 13:28:04 22171
原创 HDFS文件系统中存储块为何设置为64MB或者128MB或256MB?
1.HDFS系统文件引入分块存储磁盘是由数据块组成的,一般默认大小是512字节,构建磁盘之上的文件系统一般是磁盘块的整数倍。在HDFS系统中,为了便于文件的管理和备份,引入分块概念(block)。这里的块是HDFS存储系统当中的最小单位,HDFS默认定义一个块的大小为64MB。当有文件上传到HDFS上时,若文件大小大于设置的块大小,则该文件会被切分存储为多个块,多个块可以存放在不同的Dat...
2018-09-16 09:57:08 4306
原创 Hadoop常见操作命令行总结
Hadoop常见操作命令行的总结,内容如下:查看hdfs文件系统的根目录上有哪些文件 cd /usr/hadoop/hadoop……. (进入安装目录) bin/hadoop fs -ls hdfs://h101:9000/在/usr下创建hadoop目录 bin/hadoop fs mkdir hdfs://h101:9000/usr/hadoop将文件上传到集群 bin...
2018-09-14 13:09:20 420
原创 Oracle数据库与Mysql数据库的基本区别
Mysql与Oracle作为关系型数据库两者之间却存在一些显著的差异,其一,Mysql没有类似Oracle的构造多版本数据块的机制,只支持read commited的隔离级别。其二、事务 Oracle很早就完全支持事务。 Mysql在innodb存储引擎的行级锁的情况下才支持事务。其三、数据持久性 Oracle 保证提交的数据均可恢复,因为oracle把提交的sql操作线写入了...
2018-09-11 12:56:35 5317 2
原创 搭建DG环境(检验方法)
1、设置归档模式 2、确认主库强制写日志 3、主库和备库都配置“监听”、“传输文件”,并开启监听 4、主库和备库都创建“归档日志”目录: mkdir -p /home/oracle/archive 5、修改主备数据库的参数文件 6、主库 sqlplus / as sysdba SQL> startup force;7、备库SQL> sq...
2018-09-10 11:43:57 779
原创 Linux操作系统层面cpu使用率过高以及排查过程
1)查看服务器CPU使用情况 输入top 会发现排在前面的都是oracle的进程,而且CPU占用率都是50以上。 $ top top - 16:28:41 up 4 days, 22:35, 1 user, load average: 21.49, 22.14, 22.05 Tasks: 299 total, 31 running, 268 sleeping, 0 stoppe...
2018-09-10 11:39:59 913
原创 SQL中Delete,Truncate,Drop三者的用法与差异
在sql语句中,初学者经常为删除表使用哪个命令而纠结,下面将指出Delete\Truncate\Drop三者的使用方法和区别,一睹为快吧!delete(1) 执行delete操作时,每次将从表中删除一行,同时将该行的的删除操作记录在redo和undo表空间中以便进行回滚(rollback)和重做操作,但要注意表空间要足够大,需要手动提交(commit)操作才能生效,在未提交的情况下,可...
2018-09-09 23:49:00 391
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人