「已注销」-CSDN博客

原创 ETLUtil

ETLUtil public static String etlStr(String ori){ StringBuffer sb=new StringBuffer(); //切割 String[] fields=ori.split('\t'); //过滤长度 if(fields.length<9){ return null; } //去除类别汇总的字段空格 fields[3] =fields[3].replaceAll(" ",""); //将末尾一系列字段用逗号进行拼接

2020-11-16 14:39:44 301

原创 pl/sql学习初学

1、设置set serveroutput on参数，为了能在控制台看到输出的数据 2、基本格式 declare --填写变量、记录类型等 type emp_record is record( --两种类型推断的方式 v_id number(11), --自己定义变量类型 v_name emp.name%type --自动进行类型推断 ); v_emp_record emp_record;--创建record的实例,类似java的创建实例类 begin --程序执行的主体 select i

2020-11-13 23:50:12 269

原创 MapReduce之WordCount程序

public class WordMapper extends Mapper<LongWritable,Text,Text,IntWritable> { Text k=new Text(); IntWritable v=new IntWritable(); @Override protected void map(LongWritable key, Text value, Context context) throws IOException, Interru

2020-10-18 21:32:41 240

原创 sqoop常用导入命令

hive导入mysql sqoop export \ --connect jdbc:mysql://192.168.56.104:3306/sales_dm \ --username root \ --password 123 \ --table dm_order \ --export-dir /hive/warehouse/sales_dm.db/dm_order \ --input-fields-terminated-by '\001' mysql导入到hive sqoop import \ --

2020-09-08 08:48:09 215

原创 Scala编写WordCount程序

首先对于给定的一个List数组 val list = List("rose is beautiful","jennie is beautiful","lisa is beautiful","jisoo is beautiful") /** * 第一步，将list中的元素按照分隔符这里是空格拆分，然后展开 * 先map(_.split(" "))将每一个元素按照空格拆分 * 然后flatten展开 * flatmap即为上面两个步骤的整合 *

2020-07-30 08:47:05 559

原创 zeppelin的安装和使用

一下载安装包 http://zeppelin.apache.org/download.html 选择zeppelin-0.8.1-bin-all.tgz 二上传并解压上传到Linux tar -zvxf zeppelin-0.8.1-bin-all.tgz -C /root #解压的路径根据自己需求设置，这里选择root文件夹下进入目录 cd /root/zeppelin-0.8.1-bin-all/ -------ok,安装完成。 ->But，还需要修改一下配置文件三修改配置文

2020-07-12 13:47:56 1124

原创 hive查询时注意事项

Hive在1.2.0之前的版本只支持union all，在1.2.0之后的版本才支持union. 不然报错：

2020-07-09 11:18:32 389

原创大数据hadoop之MapReduce数据处理过程

简介 MapReduce是一种编程模型，在真正应用于工作上时，它分为MapTask阶段和ReduceTask阶段，用于大规模数据集（大于1TB）的并行运算。概念"Map（射）“和"Reduce（约）”，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是指定一Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce（归约）函数，用来保证所有映射的键值对中的

2020-07-05 13:23:41 2996 2

原创 Windows配置hadoop环境变量并使用java连接

准备工作已在虚拟机上配置了hadoop hadoop2.6.0软件包 hadoopbin工具链接: https://pan.baidu.com/s/1PwwIkN34jzHuYSm3gq7vnA 提取码: yxmi 配置环境变量右键我的电脑，点击属性，打开高级系统设置，点击环境变量点击新建： HADOOP_HOME=你windows本地的hadoop文件夹路径找到Path，点击编辑添加： %HADOOP_HOME%\bin %HADOOP_HOME%\sbin 导入hadoopbin

2020-06-30 14:32:12 818

转载 Secondary NameNode:简单的介绍和理解

前言最近刚接触Hadoop, 一直没有弄明白NameNode和Secondary NameNode的区别和关系。很多人都认为，Secondary NameNode是NameNode的备份，是为了防止NameNode的单点失败的，直到读了这篇文章Secondary Namenode - What it really do? (需翻墙)才发现并不是这样。文章写的很通俗易懂，现将其翻译如下： Secondary NameNode:它究竟有什么作用？在Hadoop中，有一些命名不好的模块，Secondary N

2020-06-30 10:28:43 1801 1

原创 hadoop组件之hive的安装配置

准备工作 1.已安装Mysql 给用户赋权限： grant all on *.* to root@'hadoop110'; flush privileges; 2.hive软件包 3.放入opt文件夹下，解压并改名 tar -zxvf hive-1.1.0-cdh5.14.2.tar.gz mv hive-1.1.0-cdh5.14.2 hive 配置环境变量 vi /etc/profile export HIVE_PATH=/opt/hive #输入hive的文件路径 export PATH=$

2020-06-29 19:06:16 1079

原创 hadoop组件之hbase安装配置

准备工作 1.软件包 2.导入到虚拟机的opt目录下，并解压和改文件夹名字 tar -zxvf hbase-1.2.0-cdh5.14.2.tar.gz mv hbase-1.2.0-cdh5.14.2/ hbase 配置环境变量输入： vi /etc/profile 最后插入： export HBASE_HOME=/opt/hbase #解压后的hbase文件夹路径 export PATH=$PATH:$HBASE_HOME/bin #记得保存退出后source etc/profi

2020-06-29 16:36:49 5659

原创 hadoop组件之zookeeper安装配置

准备工作 1.下载zookeeper 2.移动到opt目录下，解压文件输入： tar -zxvf zookeeper-3.4.6.tar.gz 配置环境变量输入： vi /etc/profile #进入环境变量配置界面最后一行插入： export ZK_HOME=/opt/zookeeper export PATH=$PATH:$ZK_HOME/bin 配置文件输入： cd /opt/zookeeper/conf/ #进入配置文件夹配置vi zoo.cfg(zoo_sample.

2020-06-29 16:15:17 379

原创 MySQL基础篇——理解RDBMS

专业的东西，总要讲究个术语，才能显得学问高深。所以呢，在说MySQL之前，需要普及下这些数据库术语。我们平常说的关系型数据库，如Oracle，MySQL等等，为啥叫关系型数据库？想过没有？关系型数据库，全称叫关系型数据库管理系统，就是我们常常看见某些书中写的RDBMS。我们解释下这个名词包含的意思，关系型数据库的概念就出来了。一、RDBMS（Relational DataBse Management System） 1、数据库：就是RDBMS中的DB，全拼为DataBase，我们常常接触仓库的概念，如

2020-06-29 09:52:03 1049

原创 Centos7的hadoop单机和集群搭建

准备安装包(首先配置单机hadoop) 打开MobaXterm，连接到你创建的一个虚拟机配置免登录: ssh-keygen -t rsa -P “”(按两下回车) cat /root/.ssh/id_rsa.pub > /root/.ssh/authorized_keys 修改主机名: 输入：hostnamectl set-hostname hadoop101 可用 hostname 命令查看是否修改成功修改主机列表: vi /etc/hosts ,添加主机ip地址和主机名,如下: 127.0.

2020-06-27 12:50:38 621

原创 ES查询常用语法

查询全部 GET /def/stu/_search #def为你建的索引名，stu为索引下的类型名 { “query”:{“match_all”:{}} } 根据条件查询 GET /index/type/_search { “query”:{ “match”:{ “name”:“tom” #match用于查询数据中，字段名为name，值包含有"tom"单词的对象 } }, “sort”:[ { “age”:“desc” #设置以age的数值进行降序排序展示出来，可加可不

2020-06-23 20:05:54 1303

原创 Centos7集群搭建

复制虚拟机之后进入复制的虚拟机输入：vi /etc/sysconfig/network-scripts/ifcfg-enp0s3将ip地址改成集群所需的IP地址，保存后退出修改主机hostname，增加主机hosts 利用mobaXterm连接虚拟机后，在主机的那个控制界面输入 :hostnamectl set-hostname bigdata01(主机名),依次在其他两个虚拟机上设置好名称。在主机界面输入:vi /etc/hosts,最后一行增加上：配置免密登录 1．在每个主机界面都要输入输入

2020-06-21 23:35:31 779

原创 Linux的ElasticSearch安装

ELK的安装配置一、ES简介 ES是一个基于RESTful web接口并且构建在Apache Lucene之上的开源分布式搜索引擎。特点是：高可用，高扩展，是一种NOSQL的数据存储工具二、ES安装前的准备(elk安装包版本要求一致) 下载：elasticsearch-6.2.2.tar.gz elasticsearch-head-master.zip kibana-6.2.2-linux-x86_64.tar.gz logstash-6.2.2.tar.gz node-v8.9.1-linux-x6

2020-06-18 19:44:50 388

原创 Centos7的svn安装(利用MobaXterm)之2

上篇我们讲了

2020-06-17 19:30:44 624

原创 Centos7的tomcat安装(利用MobaXterm)之1

准备工作 1.已经安装了Centos7，并且安装了linux版的jdk 2.登录虚拟机后，进行参数修改： (1).进入linux系统输入root用户和密码进入linux系统 (2).输入vi /etc/sysconfig/network-scripts/ifcfg-enp0s3 (3).按INS进入编辑模式修改文件 BOOTPROTO=static ONBOOT=yes 最后一行添加IPADDR=192.168.56.101(只和主机IP地址的最后一位数字不一样,主机查询ip命令ipconfig) (4).

2020-06-17 18:55:29 817

原创 Centos7常用命令整合版

文件操作： cd /home 进入 ‘/ home’ 目录’ cd … 返回上一级目录 cd …/… 返回上两级目录 cd 进入个人的主目录 cd ~user1 进入个人的主目录 cd - 返回上次所在的目录 pwd 显示工作路径 ls 查看目录中的文件 ls -F 查看目录中的文件 ls -l 显示文件和目录的详细资料 ls -a 显示隐藏文件 mkdir dir1 创建一个叫做 ‘dir1’ 的目录’ mkdir dir1 dir2 同时创建两个目录 mkdir -p /tmp/dir1/dir2 创建

2020-06-16 19:42:05 487

dengzhigang1998的博客