WWH@0066-CSDN博客

原创 HDFS主要组成部分

HDFS源于分而治之的设计思想，在大数据系统中，为分布式计算框MapReduce，Spark，Flink等提供数据存储服务；主要由主节点NameNode、从节点DataNode，SecondaryNameNode，Client组成。NameNode主要负责元数据的管理以及客户端对文件的访问，周期性地从集群中每个DataNode接受心跳信号和数据块状态报告；DataNode主要是负责数据的读写与存储；SecondaryNameNode负责元数据的同步；Client主要负责数据读写请求的发起。...

2020-11-27 20:11:18 3520

原创用到的Hive日期函数

自己使用的hive版本为1.2.1获取当前时间current_datecurrent_timestamp当月第几天dayofmonth()当前日期所在月月末last_day()当月第一天date_sub(current_date,dayofmonth(current_date)-1)下个月第一天add_months(date_sub(current_date,dayofmonth(current_date)-1),1)日期增加函数date_add()日期减少函数date_su

2020-11-25 20:06:49 259

原创开更啦！多折腾折腾

从毕业到现在快4年了，时间流淌，浮躁的心渐渐远了，更愿意静下来去学习工作，接触了很多新的东西，需要认真总结梳理一下了，争取把相关的技术原理与思路写下来，留下自己在学习生活中的痕迹！...

2020-11-24 20:19:22 128

原创 Spark在windows-64位操作系统下环境变量的配置过程（含所需的资源）

为了使已有工程运行速度更快，本人计划采用spark对已有Hive任务进行改造，接下来介绍spark运行在windons-64位环境上的配置过程。一、步骤总览1、配置java-1.8环境变量；2、配置scala-2.11.8环境变量；3、配置hadoop-2.7.3环境变量，其中需要将对应版本的hadoop.dll和winutils.exe文件拷贝到hadoop-2.7.3.tar解压后的bin目录下以及C盘widonws目录下System32目录下（注意版本统一，可以从github上下载）；4、如

2020-11-23 19:50:36 293 1

原创自备Linux命令

常用的Linux命令如下，查看内存 top查看磁盘存储情况 df -h查看磁盘IO读写（yum install iotop） iotop （root执行）直接查看比较高的磁盘读写程序 iotop -o查看端口占用情况 netstat -tunlp | grep 端口号查看报告系统运行时长及平均负载 uptime查看进程 ps -aux查看目录中内容 ls -l进入目录中 cd删除以及递归删除 rm -rf...

2020-11-19 16:56:02 58

原创 Hive执行进行度100%后，数据导入分区路径过程中元数据报错问题的解决

以上问题出现的原因为元数据通信出现异常，主要问题点还是集群与mysql数据库的信息同步出现了问题，暂时的解决办法为：msck repair table + tablename；例如：msck repair table mdw_db.mdw_flow_userbehavior_event_i_d；0.478 seconds后，数据可以查询了。...

2020-11-18 17:30:43 213

原创 Hadoop 1.x集群安装详细教程（3台服务器为演示例）

以上演示例均安装在Red Hat Enterprise Linux-5-X32位的虚拟机上，需要准备3台虚拟机（虚拟硬盘配置为40.0GB以上，虚拟内存1GB以上）且3台虚拟机需要和主机ping通（ip地址位于同一网段），接下来是hadoop 1.x集群的安装过程，注意要关闭防火墙。首先更改主机名和IPvi /etc/sysconfig/network修改/etc/hosts添加：...

2018-09-20 23:15:34 137

转载 MapReduce程序中如何获取文件名

在maper类中Path path = ((FileSplit) context.getInputSplit()).getPath() .getParent();String fileName = path.getParent().toString();引用类为import org.apache.hadoop.fs.Path;import org.apache.hadoop.ma...

2018-09-20 22:35:59 1094

原创 Oracle10g 详细安装教程

在SecureCRT下操作： vi /etc/yum.repos.d/base.repo[Base] name=base baseurl=file:///mnt/Server enabled=1 gpgcheck=0 gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-redhat-release挂载：mount /dev/cdrom /mnt...

2018-09-17 13:28:04 22171

原创 HDFS文件系统中存储块为何设置为64MB或者128MB或256MB？

1.HDFS系统文件引入分块存储磁盘是由数据块组成的，一般默认大小是512字节，构建磁盘之上的文件系统一般是磁盘块的整数倍。在HDFS系统中，为了便于文件的管理和备份，引入分块概念（block）。这里的块是HDFS存储系统当中的最小单位，HDFS默认定义一个块的大小为64MB。当有文件上传到HDFS上时，若文件大小大于设置的块大小，则该文件会被切分存储为多个块，多个块可以存放在不同的Dat...

2018-09-16 09:57:08 4306

原创 Hadoop常见操作命令行总结

Hadoop常见操作命令行的总结，内容如下：查看hdfs文件系统的根目录上有哪些文件 cd /usr/hadoop/hadoop……. (进入安装目录) bin/hadoop fs -ls hdfs://h101:9000/在/usr下创建hadoop目录 bin/hadoop fs mkdir hdfs://h101:9000/usr/hadoop将文件上传到集群 bin...

2018-09-14 13:09:20 420

原创 Oracle数据库与Mysql数据库的基本区别

Mysql与Oracle作为关系型数据库两者之间却存在一些显著的差异，其一，Mysql没有类似Oracle的构造多版本数据块的机制，只支持read commited的隔离级别。其二、事务 Oracle很早就完全支持事务。 Mysql在innodb存储引擎的行级锁的情况下才支持事务。其三、数据持久性 Oracle 保证提交的数据均可恢复，因为oracle把提交的sql操作线写入了...

2018-09-11 12:56:35 5317 2

原创搭建DG环境(检验方法)

1、设置归档模式 2、确认主库强制写日志 3、主库和备库都配置“监听”、“传输文件”，并开启监听 4、主库和备库都创建“归档日志”目录： mkdir -p /home/oracle/archive 5、修改主备数据库的参数文件 6、主库 sqlplus / as sysdba SQL> startup force;7、备库SQL> sq...

2018-09-10 11:43:57 779

原创 Linux操作系统层面cpu使用率过高以及排查过程

1）查看服务器CPU使用情况输入top 会发现排在前面的都是oracle的进程，而且CPU占用率都是50以上。 $ top top - 16:28:41 up 4 days, 22:35, 1 user, load average: 21.49, 22.14, 22.05 Tasks: 299 total, 31 running, 268 sleeping, 0 stoppe...

2018-09-10 11:39:59 913

原创 SQL中Delete，Truncate，Drop三者的用法与差异

在sql语句中，初学者经常为删除表使用哪个命令而纠结，下面将指出Delete\Truncate\Drop三者的使用方法和区别，一睹为快吧！delete(1) 执行delete操作时，每次将从表中删除一行，同时将该行的的删除操作记录在redo和undo表空间中以便进行回滚（rollback）和重做操作，但要注意表空间要足够大，需要手动提交（commit）操作才能生效，在未提交的情况下，可...

2018-09-09 23:49:00 391

weixin_42619750的博客