MY大数据开发笔记
慢!有杀气
积跬步以至千里
展开
-
利用ansiable一键部署ssh免密登录
#!/bin/bash -etmpdir="/tmp/tmp-devops"mkdir $tmpdircat >$tmpdir/ssh-expect.sh <<EOF#!/usr/bin/expect -fset pwd [lindex \$argv 0]set node [lindex \$argv 1]set timeout -1spawn ssh...原创 2020-03-08 12:28:32 · 409 阅读 · 0 评论 -
hive的分析函数(NTILE,ROW_NUMBER,RANK,DENSE_RANK)
本文中介绍前几个序列函数,NTILE,ROW_NUMBER,RANK,DENSE_RANK,下面会一一解释各自的用途。Hive版本为 apache-hive-0.13.1注意: 序列函数不支持WINDOW子句。(什么是WINDOW子句,点此查看前面的文章 )数据准备:注:此文章转载自http://lxw1234.com/archives/2015/04/176.htm,刚看的时候...转载 2019-02-23 22:06:20 · 364 阅读 · 0 评论 -
hive常用函数大全
hive是工作中常用来进行ETL和数据分析的。要想熟练使用还需要熟悉常用函数一、关系运算:1. 等值比较: = 语法:A=B 操作类型:所有基本类型 描述:如果表达式A与表达式B相等,则为TRUE;否则为FALSE 举例: hive>select 1 from lxw_dual wher...转载 2019-02-22 22:34:20 · 276 阅读 · 0 评论 -
《MY大数据开发笔记》----hive知识点总结
hive的作用:hive最初的设计目的是为了给哪些精通sql但是不熟悉Hadoop的分析师,用来分析大规模的结构化的数据文件而设计的。首先最重要的一点:hive的使用和关系型数据库的使用方式类似(类sql语句),那我们为什么不使用关系型数据库而使用hive?1.hive能分析超大数据规模的数据。2.hive用于分析存储在文件中的结构化的数据。而关系型数据库不能。所以hive最初...原创 2019-01-21 12:52:29 · 731 阅读 · 0 评论 -
《MY大数据开发笔记》----hive全面知识点概括
下一篇文章将详细描述各个知识点转载 2019-01-15 12:22:58 · 169 阅读 · 0 评论 -
《MY大数据开发笔记》----hive必须理解和明白的知识点
一:hive是什么Hive起源于Facebook,它使得针对Hadoop进行SQL查询成为可能,从而非程序员也可以方便地使用。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务运行。Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化...原创 2019-01-15 11:10:59 · 242 阅读 · 0 评论 -
什么是大数据的ETL
1、ETL的定义ETL分别是“Extract”、“ Transform” 、“Load”三个单词的首字母缩写也就是“抽取”、“转换”、“装载”,但我们日常往往简称其为数据抽取。ETL是BI/DW(商务智能/数据仓库)的核心和灵魂,按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。ETL包含了三方面:“抽取”:将数据从各种...转载 2019-01-14 19:02:28 · 10419 阅读 · 0 评论 -
idea导入普通模块与导入web模块(Tomcat)
一:project中导入普通模块1.新建一个目录,作为project目录,并创建新的project在这个目录中2.将web模块复制目录,粘贴到步骤1创建的目录中3.idea中出现如下图(很明显没有变成黑体,说明还不是模块)4.点击右边 maven project5.点击添加,选中模块的pom.xml文件6.点击刷新 二:idea中导入web模...原创 2019-01-08 22:51:27 · 3980 阅读 · 0 评论 -
《MY大数据开发笔记》----MR 运行原理
1、Map-Reduce的逻辑过程假设我们需要处理一批有关天气的数据,其格式如下:按照ASCII码存储,每行一条记录每一行字符从0开始计数,第15个到第18个字符为年第25个到第29个字符为温度,其中第25位是符号+/-0067011990999991950051507+0000+0043011990999991950051512+0022+004301199099999195...原创 2019-01-08 22:50:01 · 210 阅读 · 0 评论 -
《MY大数据开发笔记》----Hadoop默认端口应用
Hadoop集群的各部分一般都会使用到多个端口,有些是daemon之间进行交互之用,有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多,完全记不住哪个端口对应哪个应用,特收集记录如此,以便查询。这里包含我们使用到的组件:HDFS, YARN, HBase, Hive, ZooKeeper。 组件 Daemon 端口 配置 说明 HDFS...转载 2019-01-08 16:12:19 · 123 阅读 · 0 评论 -
《MY大数据开发笔记》Reduce中,将key添加到集合,集合中全部元素一致的问题。
写股票分析的MR,结果出现各种各样的问题。其中之一就是将自己自定义的stockComboKey.在reduce的时候,将其添加到集合中,传入Tool.analyze()方法中进行分析。结果全部都是一样的数据。 后面经过我多次验证。发现原来自己一直忽视了一个重要的问题。那就是reduce函数的key,valuekey是单例对象。value是一个集合所以遍历value的时候...原创 2019-01-24 11:31:07 · 239 阅读 · 0 评论 -
《MY大数据开发笔记》----虚拟机centos7mini版环境搭建
1.安装VM略2.VM中安装centOS7mini下载地址http://isoredirect.centos.org/centos/7/isos/x86_64/CentOS-7-x86_64-Minimal-1804.iso3.centOS安装以及配置网络环境参考此链接https://blog.csdn.net/uq_jin/article/details/51355124当...原创 2018-09-09 15:12:15 · 356 阅读 · 0 评论