hadoop 平台
半_调_子
因为热爱
展开
-
先排序再统计
今年写的最牛的sql:select count(*),bb.item from (select aa.aac002 ,array_to_string(ARRAY( SELECT unnest(array_agg(aa.aae140))),',') item from (select aac002,aae140from rsxy_qt_zrrsbjn where aae003 = '202012' group by aac002,aae140 order...原创 2021-03-10 20:01:55 · 214 阅读 · 0 评论 -
Ambari编译
cloudera manager 再无社区版hadoop hdp不再更改 ,纪念一下失去的青春1.1 环境搭建jdk1.8.0_161apache-maven-3.5.3CentOS 7.4.17081.2 JDK、Maven安装[root@localhost java]# cat /etc/centos-releaseCentOS Linux release 7.4.1708 (Core)[root@localhost java]# java -versionjava version原创 2020-12-25 22:54:29 · 541 阅读 · 0 评论 -
Hadoop 文档官方版本 (1)
apache hadoop 3.2.1Apache Hadoop 3.2.1在以前的主要发行版本(hadoop-3.2)上进行了许多重大改进。该版本普遍可用(GA),这意味着它代表了我们认为已经可以投入生产的API稳定性和质量。总览鼓励用户阅读全套发行说明。此页面概述了主要更改。YARN中的节点属性支持节点属性有助于根据节点的属性在节点上标记多个标签,并支持基于这些标签的表达来放置容器。YARN上的HadoopSubmarineHadoop Submarine使数据工程师可以在..原创 2020-05-25 09:52:33 · 258 阅读 · 0 评论 -
Hadoop 文档官方版本 (2)--- hadoop 单节点安装
目的本文档介绍了如何设置和配置单节点Hadoop安装,以便您可以使用Hadoop MapReduce和Hadoop分布式文件系统(HDFS)快速执行简单的操作。先决条件支持平台支持GNU / Linux作为开发和生产平台。 Hadoop在具有2000个节点的GNU / Linux集群上得到了证明。Windows也是受支持的平台,但是以下步骤仅适用于Linux。 要在Windows上设置Hadoop,请参见Wiki页面https://cwiki.apache.org/confluence原创 2020-05-25 16:21:29 · 480 阅读 · 0 评论 -
hadoop书对应关系
https://www.doc88.com/p-7136380068799.htmlhttps://github.com/Apress/practical-hadoop-security原创 2020-04-26 08:54:38 · 367 阅读 · 0 评论 -
转载好文:浅谈移动端设备标识码:DeviceID、IMEI、IDFA、UDID和UUID
【心路历程】最近刚好在思考工作中统计数据所用的标识码产生的数据误差到底有多大,借此机会几番搜索资料+请教大神,整理出此文。因为自己是产品经理,所以出发点是整理知识点、理解个大概、知道什么不能用、什么标识是靠谱的,并不研究太深入。毕竟非专业开发,有时候若了解知识点太深入,反倒会更困惑(关联知识点太多)。即使研究清楚了,工作中碰到和自己研究相悖的情况,也不好丢个文档告诉开发应该怎么做(除非很熟,...转载 2020-03-29 23:34:13 · 431 阅读 · 0 评论 -
spark 基础解析
什么是spark定义:spark是一种基于内存快速、通用、可扩展的大数据分析引擎。spark内置模块底层的调度器区分三种:基于独立调度器,yarn,mesos中间层:spark core提供几种类:spark sql ,spark streaming实时计算,spark mlib机器学习,spark graghx图计算spark core实现了spark的基本功能...原创 2020-03-10 16:46:24 · 402 阅读 · 0 评论 -
大数据:kafka
kafka是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域。2消息队列的两种模式1、点对点模式(一对一,消费者主动拉取数据,消息收到后消息消除)消息生产者生产消息发送到队列中,然后消息消费者从队列中取出并且消费消息。消息被消费以后,queue中不再有存储,所以消息消费者不可能消费到已经被消费的消息。Queue支持存在多个消费者,但是对一个消息而言,只会有一个...原创 2020-02-18 10:00:47 · 351 阅读 · 0 评论 -
大数据:hive1
1:什么是hive:由facebook开源的用于解决海量结构化日志的数据统计2:hive是基于hadoop的数据仓库工具,可以将结构化的数据文件映谢成一张表,并提供类SQL查询功能。本质:将Hql转化成mpareduce其基本执行过程: 数据仓库通过sql进行统计分析-------->将SQL语言中常用的操作(select,where,group等)用mapreduc...原创 2020-02-15 14:37:34 · 338 阅读 · 0 评论 -
hadoop故障排除
1:解决与空间相关的问题 2:解决内存问题 3:处理不同类型的故障 4:对Spark作业执行进行故障排除我要继续讲这本书的最后一章,简短而有趣。故障排除是一个广阔的领域,我想让您了解一下您可能在hadoop集群中遇到的一些更有趣的问题。hadoop有很多 配置属性,并且掌握这些属性对于充分利用hadoop集群的投资至关重要。 但是,通...原创 2019-10-15 08:35:54 · 2146 阅读 · 0 评论 -
ambari org.apache.ambari.view.utils.hdfs.HdfsApiException: HDFS020 C
org.apache.ambari.view.utils.hdfs.HdfsApiException: HDFS020 Could not write file /user/anirudh.deshpande/hive/jobs/hive-job-1004-2018-08-22_12-40/query.hqlorg.apache.ambari.view.utils.hdfs.HdfsApiEx...原创 2019-07-24 11:20:50 · 473 阅读 · 0 评论 -
数据治理工具
Data Governance Tools - Evaluation Criteria, Big Data Governance,内容: 前言 第一部分:导论: 1:数据治量简介 定义案例分析数据治理的支柱摘要 2:企业数据管理参考架构EDM类别大数据数据治理工具摘要第...原创 2019-01-02 10:43:39 · 6333 阅读 · 4 评论 -
Data Governance
http://www.doc88.com/p-6873899140404.html The Responsive City: Engaging Communities Through Data-Smart Governance http://www.doc88.com/p-0418665567990.html Data Governance原创 2019-01-01 23:01:37 · 555 阅读 · 0 评论 -
大数据分析:将大数据转化为巨额资金 第四章和第五章
第4章构建大数据团队 大数据项目最重要的元素之一是一个相当明显但经常被忽视的项目:人。 没有人工参与或解释,大数据分析变得毫无用处,没有任何目的,没有价值。 需要一个团队才能使大数据工作,即使该团队只由两个人组成,它仍然是一个必要的元素。将人们聚集在一起建立一个团队可能是一个艰巨的过程,涉及多个会议,也许是招聘,当然还有人事管理。 需要几种大数据专业技能,这就是团队的定义。 确定...原创 2018-12-29 09:15:56 · 947 阅读 · 2 评论 -
大数据分析:将大数据转化为巨额资金 第2章和第3章
第2章:为什么大数据很重要了解大数据是什么并了解它的价值是两回事。即使了解大数据分析,信息的价值仍然难以可视化。乍一看,结构化,非结构化和半结构化数据的井似乎几乎是不可思议的,每个桶只是一个不相关的数据元素。找出重要的事项及其重要性是从大数据井中汲取的第一步,也是避免信息淹没的关键。但是,这个问题仍然存在:为什么大数据很重要?对于中小型企业来说似乎很难回答,特别是那些已经避开过商业智...原创 2018-12-29 00:17:25 · 1594 阅读 · 0 评论 -
大数据分析:将大数据转化为巨额资金 前言及第一章
大数据分析:将大数据转化为巨额资金http://www.doc88.com/p-9773645686622.html内容前言什么是数据? 这似乎是一个简单的问题; 然而,根据解释,数据的定义可以是从“记录的东西”到“阳光下的一切”的任何东西。数据可以作为所有经验,无论是来自传感器的机器记录信息,个人拍照, 或由科学家记录的acosmic事件。 换句话说,一切都是数据。然而,记录和保...原创 2018-12-28 23:00:11 · 666 阅读 · 0 评论 -
kafka官方文档
主要功能:发布和订阅:读取和写入数据流,如消息传递系统。处理:编写可扩展的流处理应用程序,以实时响应事件。存储:将数据流安全地存储在分布式,复制的容错群集中。介绍:Apache Kafka 是一个分布式流媒体平台。 这到底是什么意思呢?流媒体平台有三个关键功能:发布和订阅记录流,类似于消息队列或企业消息传递系统。以容错的持久方式存储记录流。记录发生时处理流...原创 2018-11-21 16:44:11 · 362 阅读 · 0 评论 -
HDP安全架构
HDP安全概述安全性对于在Hadoop生态系统中存储和处理敏感数据的组织来说至关重要。许多组织必须遵守严格的企业安全策略。Hadoop是一个用于数据存储和使用商品服务器对集群进行大规模处理的分布式框架。向Hadoop添加安全性具有挑战性,因为并非所有的交互都遵循传统的客户端 - 服务器模式。在Hadoop中,文件系统是分区和分布式的,需要在多个点进行授权检查。一、提交的作业后,原创 2016-12-19 22:04:13 · 5045 阅读 · 0 评论 -
Hue安装及测试文档
开始准备使用docker 的,但是官方镜像为Ubuntu 的,不是很方便,但是docker file研究了一下,后面有时间再研究一下docker,docker 还是很好玩的。(这个花了一天时间)----放弃,但有收获,看看这奇葩的配置docker run -tid --name huewajj --hostname dcp241 -p 8888:8888 -v /usr/h原创 2016-12-19 22:06:37 · 2166 阅读 · 0 评论 -
SparkR终极解决方案
问题:Spark支持sparkR需要安装R如果R需要支持强大的内库,就需要安装第三方内库(需要连网)。解决步骤: 第一:安装开发工具集R对操作系统有一定的要求,所以先安装开发工具集,因为里面有c++的编译 配置操作系统yum源(如果不会请百度) 安装开发原创 2017-04-28 14:11:35 · 1326 阅读 · 0 评论 -
Connecting to https://XXXXXXXXXXXXXXXXXXXXXXXX:8440/ca
INFO 2017-08-05 01:14:38,849 HeartbeatHandlers.py:115 - Stop event received INFO 2017-08-05 01:14:38,849 NetUtil.py:125 - Stop event received INFO 2017-08-05 01:14:38,849 ExitHelper.py:53 - Performi原创 2017-10-18 18:16:38 · 267945 阅读 · 0 评论 -
cdh vm使用
1:注册用户2:下载vm镜像参考资源 https://www.cloudera.com/documentation/enterprise/latest/topics/quickstart_vm_administrative_information.html原创 2017-11-01 12:49:29 · 614 阅读 · 0 评论 -
hive分区表增加字段后,依然查出来为null的处理方式
第一步:备份数据:如以下几个表:为假设uoc_order_tuoc_product_tuoc_source_t查询存储路径:使用语句:desc formatted uoc_order_t;hive>desc formatted intf.uoc_order_t;desc formatted intf.uoc_product_t;desc formatte原创 2018-01-11 14:41:49 · 1117 阅读 · 0 评论 -
Redis cluster proxy 解决方法
Redis Cluster and DockerCurrently Redis Cluster does not support NATted environments and in general environments where IP addresses or TCP ports are remapped.Docker uses a technique called port ma原创 2018-01-31 19:10:49 · 2511 阅读 · 0 评论 -
Redis cluster 3.2安装文档
架构方面:四组,四主四备第一步:下载wget http://download.redis.io/releases/redis-3.2.11.tar.gz第二步:编译安装系统需要安装yum install gcc -yyum install jemalloc-devel jemalloc -yyum install readline-devel -yyum install ruby -y #安装到...原创 2018-01-05 14:46:46 · 364 阅读 · 0 评论 -
Sqoop1.4.4 安装
安装Sqoop 1. 下载Sqoop1.4.4安装包: http://archive.apache.org/dist/sqoop/1.4.4/ 我用的是: sqoop-1.4.4.bin__hadoop-2.0.4-alpha.tar.gz 2. 创建sqoop目录,将安装包,解压到sqoop目录下: #tar –zxvf sqoop-1.4.4.bin__hadoop-2.0.4-alpha....原创 2018-04-16 09:01:28 · 460 阅读 · 0 评论 -
Bulk Load-HBase数据导入最佳实践
一、概述HBase本身提供了非常多种数据导入的方式,通常有两种经常使用方式:1、使用HBase提供的TableOutputFormat,原理是通过一个Mapreduce作业将数据导入HBase2、还有一种方式就是使用HBase原生Client API这两种方式因为须要频繁的与数据所存储的RegionServer通信。一次性入库大量数据时,特别占用资源,所以都不是最有效的。了解过HBase底层原理的...原创 2018-04-16 09:03:50 · 344 阅读 · 0 评论 -
HDFS 分布式文件系统
hdfs getconf -confKey dfs.namenode.edits.dir概念一台计算机的存储计算能力有限;当一个数据集的大小超过了一台计算机的存储能力时,需要对其进行分区(patition),并存储到多个计算机上。—— 跨网络管理多个计算机储存的文件系统 —— 分布式文件系统 存储方式:以流式数据访问模式来存储超大文件流式数据访问模式(如mapreduce):一次写入,多次读取是...原创 2018-04-16 09:35:55 · 355 阅读 · 0 评论 -
大数据:概念,方法,工具和应用程序
大数据:概念,方法,工具和应用程序目录第1节基本概念和理论本部分通过解决对理解大数据至关重要的基本原则,为此详尽的参考工具奠定了基础。这些页面中的章节提供了将大数据置于信息科学与技术领域的绝佳框架。 解决关于将全球措施纳入大数据的关键问题,同时探索这个领域的关键绊脚石。 本书包含了16章基础部分,读者可以从强化大数据学科的元素理论专家研究汇编中学习和选择第1章:大数据概述第2章:大数据预测和规范分...翻译 2018-05-08 09:54:09 · 1674 阅读 · 0 评论 -
spark sql 将数据导入到redis 里面
#coding=utf-8from __future__ import print_functionfrom pyspark.sql import SparkSessionfrom pyspark.sql import Rowimport sysfrom decimal import *from rediscluster import StrictRedisClusterreloa...原创 2018-07-25 10:52:36 · 4972 阅读 · 2 评论 -
hdfs api java
package com.jsptpd;import java.io.IOException;import java.io.OutputStream;//import org.apache.commons.compress.utils.IOUtils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoo...原创 2018-11-20 17:13:40 · 289 阅读 · 0 评论