- 博客(21)
- 收藏
- 关注
原创 ETLUtil
ETLUtil public static String etlStr(String ori){ StringBuffer sb=new StringBuffer(); //切割 String[] fields=ori.split('\t'); //过滤长度 if(fields.length<9){ return null; } //去除类别汇总的字段空格 fields[3] =fields[3].replaceAll(" ",""); //将末尾一系列字段用逗号进行拼接
2020-11-16 14:39:44
301
原创 pl/sql学习初学
1、设置set serveroutput on参数,为了能在控制台看到输出的数据 2、基本格式 declare --填写变量、记录类型等 type emp_record is record( --两种类型推断的方式 v_id number(11), --自己定义变量类型 v_name emp.name%type --自动进行类型推断 ); v_emp_record emp_record;--创建record的实例,类似java的创建实例类 begin --程序执行的主体 select i
2020-11-13 23:50:12
269
原创 MapReduce之WordCount程序
public class WordMapper extends Mapper<LongWritable,Text,Text,IntWritable> { Text k=new Text(); IntWritable v=new IntWritable(); @Override protected void map(LongWritable key, Text value, Context context) throws IOException, Interru
2020-10-18 21:32:41
240
原创 sqoop常用导入命令
hive导入mysql sqoop export \ --connect jdbc:mysql://192.168.56.104:3306/sales_dm \ --username root \ --password 123 \ --table dm_order \ --export-dir /hive/warehouse/sales_dm.db/dm_order \ --input-fields-terminated-by '\001' mysql导入到hive sqoop import \ --
2020-09-08 08:48:09
215
原创 Scala编写WordCount程序
首先对于给定的一个List数组 val list = List("rose is beautiful","jennie is beautiful","lisa is beautiful","jisoo is beautiful") /** * 第一步,将list中的元素按照分隔符这里是空格拆分,然后展开 * 先map(_.split(" "))将每一个元素按照空格拆分 * 然后flatten展开 * flatmap即为上面两个步骤的整合 *
2020-07-30 08:47:05
559
原创 zeppelin的安装和使用
一 下载安装包 http://zeppelin.apache.org/download.html 选择zeppelin-0.8.1-bin-all.tgz 二 上传并解压 上传到Linux tar -zvxf zeppelin-0.8.1-bin-all.tgz -C /root #解压的路径根据自己需求设置,这里选择root文件夹下 进入目录 cd /root/zeppelin-0.8.1-bin-all/ -------ok,安装完成。 ->But,还需要修改一下配置文件 三 修改 配置文
2020-07-12 13:47:56
1124
原创 大数据hadoop之MapReduce数据处理过程
简介 MapReduce是一种编程模型,在真正应用于工作上时,它分为MapTask阶段和ReduceTask阶段,用于大规模数据集(大于1TB)的并行运算。概念"Map(射)“和"Reduce(约)”,是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的
2020-07-05 13:23:41
2996
2
原创 Windows配置hadoop环境变量并使用java连接
准备工作 已在虚拟机上配置了hadoop hadoop2.6.0软件包 hadoopbin工具 链接: https://pan.baidu.com/s/1PwwIkN34jzHuYSm3gq7vnA 提取码: yxmi 配置环境变量 右键我的电脑,点击属性,打开高级系统设置,点击环境变量 点击新建: HADOOP_HOME=你windows本地的hadoop文件夹路径 找到Path,点击编辑 添加: %HADOOP_HOME%\bin %HADOOP_HOME%\sbin 导入hadoopbin
2020-06-30 14:32:12
818
转载 Secondary NameNode:简单的介绍和理解
前言 最近刚接触Hadoop, 一直没有弄明白NameNode和Secondary NameNode的区别和关系。很多人都认为,Secondary NameNode是NameNode的备份,是为了防止NameNode的单点失败的,直到读了这篇文章Secondary Namenode - What it really do? (需翻墙)才发现并不是这样。文章写的很通俗易懂,现将其翻译如下: Secondary NameNode:它究竟有什么作用? 在Hadoop中,有一些命名不好的模块,Secondary N
2020-06-30 10:28:43
1801
1
原创 hadoop组件之hive的安装配置
准备工作 1.已安装Mysql 给用户赋权限: grant all on *.* to root@'hadoop110'; flush privileges; 2.hive软件包 3.放入opt文件夹下,解压并改名 tar -zxvf hive-1.1.0-cdh5.14.2.tar.gz mv hive-1.1.0-cdh5.14.2 hive 配置环境变量 vi /etc/profile export HIVE_PATH=/opt/hive #输入hive的文件路径 export PATH=$
2020-06-29 19:06:16
1079
原创 hadoop组件之hbase安装配置
准备工作 1.软件包 2.导入到虚拟机的opt目录下,并解压和改文件夹名字 tar -zxvf hbase-1.2.0-cdh5.14.2.tar.gz mv hbase-1.2.0-cdh5.14.2/ hbase 配置环境变量 输入: vi /etc/profile 最后插入: export HBASE_HOME=/opt/hbase #解压后的hbase文件夹路径 export PATH=$PATH:$HBASE_HOME/bin #记得保存退出后source etc/profi
2020-06-29 16:36:49
5659
原创 hadoop组件之zookeeper安装配置
准备工作 1.下载zookeeper 2.移动到opt目录下,解压文件 输入: tar -zxvf zookeeper-3.4.6.tar.gz 配置环境变量 输入: vi /etc/profile #进入环境变量配置界面 最后一行插入: export ZK_HOME=/opt/zookeeper export PATH=$PATH:$ZK_HOME/bin 配置文件 输入: cd /opt/zookeeper/conf/ #进入配置文件夹 配置vi zoo.cfg(zoo_sample.
2020-06-29 16:15:17
379
原创 MySQL基础篇——理解RDBMS
专业的东西,总要讲究个术语,才能显得学问高深。所以呢,在说MySQL之前,需要普及下这些数据库术语。 我们平常说的关系型数据库,如Oracle,MySQL等等,为啥叫关系型数据库?想过没有? 关系型数据库,全称叫关系型数据库管理系统,就是我们常常看见某些书中写的RDBMS。我们解释下这个名词包含的意思,关系型数据库的概念就出来了。 一、RDBMS(Relational DataBse Management System) 1、数据库:就是RDBMS中的DB,全拼为DataBase,我们常常接触仓库的概念,如
2020-06-29 09:52:03
1049
原创 Centos7的hadoop单机和集群搭建
准备安装包(首先配置单机hadoop) 打开MobaXterm,连接到你创建的一个虚拟机 配置免登录: ssh-keygen -t rsa -P “”(按两下回车) cat /root/.ssh/id_rsa.pub > /root/.ssh/authorized_keys 修改主机名: 输入:hostnamectl set-hostname hadoop101 可用 hostname 命令查看是否修改成功 修改主机列表: vi /etc/hosts ,添加主机ip地址和主机名,如下: 127.0.
2020-06-27 12:50:38
621
原创 ES查询常用语法
查询全部 GET /def/stu/_search #def为你建的索引名,stu为索引下的类型名 { “query”:{“match_all”:{}} } 根据条件查询 GET /index/type/_search { “query”:{ “match”:{ “name”:“tom” #match用于查询数据中,字段名为name,值包含 有"tom"单词的对象 } }, “sort”:[ { “age”:“desc” #设置以age的数值进行降序排序展示出来,可 加可不
2020-06-23 20:05:54
1303
原创 Centos7集群搭建
复制虚拟机 之后进入复制的虚拟机输入:vi /etc/sysconfig/network-scripts/ifcfg-enp0s3将ip地址改成集群所需的IP地址,保存后退出 修改主机hostname,增加主机hosts 利用mobaXterm连接虚拟机后,在主机的那个控制界面输入 :hostnamectl set-hostname bigdata01(主机名),依次在其他两个虚拟机上设置好名称。在主机界面输入:vi /etc/hosts,最后一行增加上: 配置免密登录 1.在每个主机界面都要输入输入
2020-06-21 23:35:31
779
原创 Linux的ElasticSearch安装
ELK的安装配置 一、ES简介 ES是一个基于RESTful web接口并且构建在Apache Lucene之上的开源分布式搜索引擎。 特点是:高可用,高扩展,是一种NOSQL的数据存储工具 二、ES安装前的准备(elk安装包版本要求一致) 下载:elasticsearch-6.2.2.tar.gz elasticsearch-head-master.zip kibana-6.2.2-linux-x86_64.tar.gz logstash-6.2.2.tar.gz node-v8.9.1-linux-x6
2020-06-18 19:44:50
388
原创 Centos7的tomcat安装(利用MobaXterm)之1
准备工作 1.已经安装了Centos7,并且安装了linux版的jdk 2.登录虚拟机后,进行参数修改: (1).进入linux系统输入root用户和密码进入linux系统 (2).输入vi /etc/sysconfig/network-scripts/ifcfg-enp0s3 (3).按INS进入编辑模式修改文件 BOOTPROTO=static ONBOOT=yes 最后一行添加IPADDR=192.168.56.101(只和主机IP地址的最后一位数字不一样,主机查询ip命令ipconfig) (4).
2020-06-17 18:55:29
817
原创 Centos7常用命令整合版
文件操作: cd /home 进入 ‘/ home’ 目录’ cd … 返回上一级目录 cd …/… 返回上两级目录 cd 进入个人的主目录 cd ~user1 进入个人的主目录 cd - 返回上次所在的目录 pwd 显示工作路径 ls 查看目录中的文件 ls -F 查看目录中的文件 ls -l 显示文件和目录的详细资料 ls -a 显示隐藏文件 mkdir dir1 创建一个叫做 ‘dir1’ 的目录’ mkdir dir1 dir2 同时创建两个目录 mkdir -p /tmp/dir1/dir2 创建
2020-06-16 19:42:05
487
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人