2020年09月_黄道婆

12月 11月 10月 09月 08月 05月 04月 03月 02月

转载转载：hive开窗函数，分析函数

原始链接：https://www.cnblogs.com/yejibigdata/p/6376409.html1.hive开窗函数，分析函数http://yugouai.iteye.com/blog/1908121分析函数用于计算基于组的某种聚合值，它和聚合函数的不同之处是：对于每个组返回多行，而聚合函数对于每个组只返回一行。开窗函数指定了分析函数工作的数据窗口大小，这个数据窗口大小可能会随着行的变化而变化drop table if exists student;create tab.

2020-09-29 13:47:47 243

转载转载：Hive开窗函数整理

原始链接：https://www.cnblogs.com/zz-ksw/p/12917693.htmlHive开窗函数整理分析函数用于计算基于组的某种聚合值，它和聚合函数的不同之处是：对于每个组返回多行，而聚合函数对于每个组只返回一行。开窗函数指定了分析函数工作的数据窗口大小，这个数据窗口大小可能会随着行的变化而变化！到底什么是数据窗口？后面举例会详细讲到！基础结构：分析函数（如:sum(),max(),row_number()...） + 窗口子句（over函数）over函数.

2020-09-29 13:35:21 102

转载转载：Hive开窗函数实战(建议收藏)

原始链接：https://blog.csdn.net/a934079371/article/details/106205151?utm_medium=distribute.pc_relevant_t0.none-task-blog-OPENSEARCH-1.channel_param&depth_1-utm_source=distribute.pc_relevant_t0.none-task-blog-OPENSEARCH-1.channel_paramHive开窗函数实战(建议收藏).

2020-09-29 12:50:05 182

转载转载：Hive开窗函数 Window Functions

原始链接：https://cwiki.apache.org/confluence/display/ASTERIXDB/Window+FunctionsWindow Functions转至元数据结尾由Dmitry Lychagin创建, 最后修改于二月 28, 2019转至元数据起始Motivation User Model Design SQL++ Expression Algebricks Operator Hyracks Runtime Open items..

2020-09-29 00:41:29 396

转载转载：ROW_NUMBER() OVER()函数用法详解（分组排序例子多）

原始链接：https://blog.csdn.net/qq_25221835/article/details/82762416ROW_NUMBER() OVER()函数用法详解（分组排序例子多）语法格式：row_number() over(partition by 分组列 order by排序列 desc)row_number() over()分组排序功能：在使用 row_number() over()函数时候，over()里头的分组以及排序的执行晚于 where 、...

2020-09-29 00:26:18 101

原创 hive在mysql中总是不创建元数据库的解决办法

hive在mysql中总是不创建元数据库的解决办法这两天打算好好捣鼓捣鼓hive sql。遂搞了台centos搭环境，搭环境嘛，当然是怎么简单怎么来，怎么快怎么来。好不容易搭完了，发现hive在mysql中总是不创建元数据库。按照既往掉坑的经验，怀疑框架搭得不对、怀疑服务没启动、怀疑mysql驱动版本不对、怀疑hadoop和hive的guava jar包版本不一致、怀疑mysql服务没启动、怀疑元数据的字符集编码集不对时区不对……都不对。网上搜到的解决办法是手动执行初始化元数据的工作，问题.

2020-09-27 14:35:49 977 1

转载转载：FQDN：(Fully Qualified Domain Name)全限定域名

FQDNFQDN编辑讨论上传视频FQDN：(Fully Qualified Domain Name)全限定域名：同时带有主机名和域名的名称。（通过符号“.”）例如：主机名是bigserver,域名是mycompany.com,那么FQDN就是bigserver.mycompany.com。[1]全限定域名可以从逻辑上准确地表示出主机在什么地方，也可以说全域名是主机名的一种完全表示形式。从全限定域名中包含的信息可以看出主机在域名树中的位置。DNS解析流程：首先查找...

2020-09-27 14:14:01 589

原创 mysql的赋权语句

mysql 的赋权语句： grant all privileges on *.* to 'root'@'%' identified by '123456' with grant option;all privileges ==》表示所有的权限，增删改查权限全部都有了*.* ==> 所有的数据库下面所有的表root@% ==》所有数据库下面所有的表，所有的权限，全部都给root用户 % 表示root用户可以在任意...

2020-09-27 00:48:37 1184

转载转载：Hive sql语句必练50题-入门到精通(3)

原始链接：https://blog.csdn.net/Thomson617/article/details/83281254Hive sql语句必练50题-入门到精通(3)承接: Hive sql语句必练50题-入门到精通(2)– 36、查询任何一门课程成绩在70分以上的学生姓名、课程名称和分数:select student.s_id,s_name,c_name,s_score from student join (select sc.* from score sc ..

2020-09-26 20:07:58 150

转载转载：Hive sql语句必练50题-入门到精通(2)

原始链接：https://blog.csdn.net/Thomson617/article/details/83280617Hive sql语句必练50题-入门到精通(2)承接: Hive sql语句必练50题-入门到精通(1)– 21、查询不同老师所教不同课程平均分从高到低显示:– 方法1select course.c_id,course.t_id,t_name,round(avg(s_score),2)as avgscore from course join te..

2020-09-26 20:03:34 241

转载转载：Hive sql语句必练50题-入门到精通(1)

原始链接：https://blog.csdn.net/Thomson617/article/details/83212338Hive sql语句必练50题-入门到精通(1)hive学习之经典sql 50题 hive版建表:create table student(s_id string,s_name string,s_birth string,s_sex string) row format delimited fields terminated by '\t';create t.

2020-09-26 20:00:12 465

转载转载：【SQL练习】经典SQL练习题

原始链接：https://blog.csdn.net/mrbcy/article/details/68965271【SQL练习】经典SQL练习题墨染百城2017-04-03 18:12:08107931收藏170分类专栏：SQL练习文章标签：sql版权准备数据建表语句CREATE TABLE students(sno VARCHAR(3) NOT NULL, sname VARCHAR(4) NOT NULL,ssex VARCHAR(2) N...

2020-09-26 19:27:15 276

原创 Hive自定义函数开发

Hive自定义函数开发五、Hive函数5.1、内置函数内容较多，见《Hive官方文档》https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF1）查看系统自带的函数hive> show functions;2）显示自带的函数的用法hive> desc function upper;3）详细显示自带的函数的用法hive> desc function extende..

2020-09-25 21:04:14 308

转载转载：Hadoop 新 MapReduce 框架 Yarn 详解

原文链接：https://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/Hadoop 新 MapReduce 框架 Yarn 详解唐清原2013 年 1 月 17 日发布WeiboGoogle+用电子邮件发送本页面Hadoop MapReduceV2(Yarn) 框架简介原 Hadoop MapReduce 框架的问题对于业界的大数据存储及分布式处理系统来说，Hadoop 是耳熟能详的卓越开源分.

2020-09-25 14:50:48 170

原创案例：分组求top1、求topN

====案例：分组求top1自定义GroupingComparator求取topNGroupingComparator是mapreduce当中reduce端的一个功能组件，主要的作用是决定哪些数据作为一组，调用一次reduce的逻辑，默认是每个不同的key，作为多个不同的组，每个组调用一次reduce逻辑，我们可以自定义GroupingComparator实现不同的key作为同一个组，调用一次reduce逻辑3.1 需求有如下订单数据订单id 商品id 成交金额Order_000...

2020-09-25 14:38:59 602

原创案例：自定义outputFormat--将订单的好评与差评进行区分开来

====案例：自定义outputFormat--将订单的好评与差评进行区分开来2.1 需求现在有一些订单的评论数据，需求，将订单的好评与差评进行区分开来，将最终的数据分开到不同的文件夹下面去，数据内容参见资料文件夹，其中数据第九个字段表示好评，中评，差评。0：好评，1：中评，2：差评2.2 分析程序的关键点是要在一个mapreduce程序中根据数据的不同输出两类结果到不同目录，这类灵活的输出需求可以通过自定义outputformat来实现2.3 实现实现要点：1、在mapre...

2020-09-24 20:00:28 323

原创案例：自定义inputFormat合并小文件

====案例：自定义inputFormat合并小文件1、上传之前的合并。文件都给合并到了一起分不开，只适用于同一类型的文件2、上传之后的合并。已经有了大量的小文件在hdfs上面了，可以通过自定义inputformat实现文件的读取，然后将文件输出成sequenceFile类型的我们将文件转换成sequenceFile之后，我们到时候读取的时候,使用SequenceFileInputFormat来读取，这个文件就又会读取成一个个的文件3、使用har归档文件1.1 需求无论hdfs还是ma

2020-09-24 19:18:30 214

原创案例：倒排索引建立

====案例：倒排索引建立需求分析需求：有大量的文本（文档、网页），需要建立搜索索引思路分析：首选将文档的内容全部读取出来，加上文档的名字作为key，文档的value为1，组织成这样的一种形式的数据map端数据输出hello-a.txt 1hello-a.txt 1hello-a.txt 1reduce端数据输出hello-a.txt 3k1: LongWritable; v1: Textk2: Text; v2: IntWritablek3: Text; v3: Int.

2020-09-24 15:26:10 377

转载转载：MapReduce--求哪些人两两之间是互粉好友

原文链接：https://www.cnblogs.com/break-lian/p/9780133.htmlMapReduce--求哪些人两两之间是互粉好友数据：A:B,C,D,F,E,O B:A,C,E,K C:F,A,D,I D:A,E,F,L E:B,C,D,M,L F:A,B,C,D,E,O,M G:A,C,D,E,F H:A,C,D,E,O I:A,O J:B,O K:A,C,D L:D,E,F M:E,F,G O:A,H,I,J,K求哪些人两两之间是互粉好友，形如：A的好友...

2020-09-24 14:56:44 193

原创案例：社交粉丝数据分析--求共同好友

案例：社交粉丝数据分析--求共同好友逻辑分析以下是qq的好友列表数据，冒号前是一个用户，冒号后是该用户的所有好友（数据中的好友关系是单向的）A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J求出哪些人两两之间有共同好友，及他俩的共同好友都有谁？解题思路：k1:

2020-09-24 14:46:09 418

原创分区个数与reduceTask个数的关系

====分区个数与reduceTask个数的关系：如果分区的个数动态获取 HashPartitioner里(key.hashCode() & Integer.MAX_VALUE) % numReduceTask，好处：不存在谁大谁小的问题。 hashPartitioner ==》分区个数 ==== reduceTask的个数如果分区的个数手动指定，有><=三种情况：分区个数 > reduceTask的个数 ==》报错了分区个数 ...

2020-09-24 14:17:44 1903 1

原创 MapReduce编程案例: reduce端join算法、map端join算法

资料来源于网络====MapReduce编程案例: reduce端join算法、map端join算法案例一：reduce端join算法实现1、需求：订单数据表t_order：id date pid amount1001 20150710 P0001 21002 20150710 P0001 31002 20150710 P0002 3商品信息表t_productid pname catego...

2020-09-24 14:05:38 121

原创 MapReduceshuffle过程

资料来源于网络8、MapReduceshuffle过程map阶段处理的数据如何传递给reduce阶段，是MapReduce框架中最关键的一个流程，这个流程就叫shuffle。shuffle: 洗牌、发牌——（核心机制：数据分区，排序，分组，规约，合并等过程）。shuffle是Mapreduce的核心，它分布在Mapreduce的map阶段和reduce阶段。一般把从Map产生输出开始到Reduce取得数据作为输入之前的过程称作shuffle。1).Collect阶段：将M..

2020-09-24 07:58:09 84

原创 ReduceTask 工作机制

资料来源于网络7、ReduceTask 工作机制以及reduceTask的并行度Reduce大致分为copy、sort、reduce三个阶段，重点在前两个阶段。copy阶段包含一个eventFetcher来获取已完成的map列表，由Fetcher线程去copy数据，在此过程中会启动两个merge线程，分别为inMemoryMerger和onDiskMerger，分别将内存中的数据merge到磁盘和将磁盘中的数据进行merge。待数据copy完成之后，copy阶段就完成了，开始进行sort阶.

2020-09-24 07:57:19 598

原创 MapTask运行机制详解

资料来源于网络6、MapTask运行机制详解以及Map任务的并行度整个Map阶段流程大体如上图所示。简单概述：inputFile通过split被逻辑切分为多个split文件，通过Record按行读取内容给map（用户自己实现的）进行处理，数据被map处理结束之后交给OutputCollector收集器，对其结果key进行分区（默认使用hash分区），然后写入buffer，每个map task都有一个内存缓冲区，存储着map的输出结果，当缓冲区快满的时候需要将缓冲区的数据以一个临时..

2020-09-24 07:52:09 388

原创 MapReduce综合练习之上网流量统计

====MapReduce综合练习之上网流量统计需求一：统计求和统计每个手机号的上行流量总和，下行流量总和，上行总流量之和，下行总流量之和分析：以手机号码作为key值，上行流量，下行流量，上行总流量，下行总流量四个字段作为value值，然后以这个key，和value作为map阶段的输出，reduce阶段的输入代码定义如下：第一步：自定义map的输出value对象FlowBeanpackage cn.itcast.mr.demo3.flow;import org.apache.hadoo.

2020-09-23 20:54:52 331

原创 MapReduce当中的计数器Counter

====MapReduce当中的计数器Counterhadoop内置计数器列表MapReduce任务计数器 org.apache.hadoop.mapreduce.TaskCounter文件系统计数器 org.apache.hadoop.mapreduce.FileSystemCounterFileInputFormat计数器 org.apache.hadoop.mapreduce.lib.input.FileInputFormatCounterFileOutputForma...

2020-09-23 15:24:51 473

原创 MapReduce排序以及序列化

====MapReduce排序以及序列化序列化（Serialization）是指把结构化对象转化为字节流。反序列化（Deserialization）是序列化的逆过程。把字节流转为结构化对象。当要在进程间传递对象或持久化对象的时候，就需要序列化对象成字节流。反之当要将接收到或从磁盘读取的字节流转换为对象，就要进行反序列化。Java 的序列化（Serializable）是一个重量级序列化框架，一个对象被序列化后，会附带很多额外的信息（各种校验信息，header，继承体系…），不便于在网络中高效...

2020-09-23 13:56:21 338

原创 MapReduce分区和reduceTask的数量

MapReduce分区和reduceTask的数量1.MapReduce分区：相同key的数据发送到同一个reduce里面去。mapTask处理的是文件切片filesplit。注意：block的概念是在hdfs当中的，mapreduce当中，每一个mapTask处理的数据都是叫做一个文件切片。暂时可以简单地认为，一个文件切片就是对应一个block块。还可以简单地认为，有多少个block块，就要启动多少个mapTask。2.分区规则：HashPartitioner的getPartition方法

2020-09-23 10:41:34 1390

原创 MapReduce的编程模型

MapReduce1.MapReduce思想：分而治之适用于一些大的人物，可以化解成一个个的小任务进行处理。每一个小人物的求解思路与步骤和大任务的求解思路与步骤都一样。（1）Map负责“分”。即把复杂的任务分解为若干个”简单的任务“来进行处理。可以拆分的前提是这些小任务可以并行计算，彼此之间没有依赖关系。（2）Reduce负责“合”。即对map阶段的结果进行全局汇总。2.MapReduce的编程模型Map阶段：（1）读取文件，解析成key, value对。k1,v1（2）自定义map逻

2020-09-22 19:45:24 367 1

原创 hdfs下的WordCount示例编写

hdfs下的WordCount示例编写需求：在一堆给定的文本文件中统计输出每一个单词出现的总次数数据格式准备如下：cd /export/serversvim wordcount.txthello,world,hadoophive,sqoop,flume,hellokitty,tom,jerry,worldhadoop把文件上传到hdfs上去：hdfs dfs -mkdir /wordcount/hdfs dfs -put wordcount.txt /wordcount/定义一

2020-09-22 19:34:52 332

原创 HDFS的API操作

HDFS的API操作----1.创建maven工程并导入jar包<repositories> <repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url> </repository></repositories>...

2020-09-21 22:42:30 95

原创 hdfs文件的读取过程

8、HDFS的文件读取过程详细步骤解析1、 Client向NameNode发起RPC请求，来确定请求文件block所在的位置；2、 NameNode会视情况返回文件的部分或者全部block列表，对于每个block，NameNode 都会返回含有该 block 副本的 DataNode 地址；这些返回的 DN 地址，会按照集群拓扑结构得出 DataNode 与客户端的距离，然后进行排序，排序两个规则：网络拓扑结构中距离 Client 近的排靠前；心跳机制中超时汇报的 DN 状态...

2020-09-21 15:29:54 1842

原创 HDFS的文件写入过程

7、HDFS的文件写入过程详细步骤解析：1、 client发起文件上传请求，通过RPC与NameNode建立通讯，NameNode检查目标文件是否已存在，父目录是否存在，返回是否可以上传；2、 client请求第一个block该传输到哪些DataNode服务器上；3、 NameNode根据配置文件中指定的备份数量及机架感知原理进行文件分配，返回可用的DataNode的地址如：A，B，C；注：Hadoop在设计时考虑到数据的安全与高效，数据文件默认在HDFS上存放三份...

2020-09-20 21:51:56 1368

原创 HDFS分布式文件系统设计目标

HDFS分布式文件系统设计目标1. 硬件错误：由于集群很多时候由数量众多的廉价机组成，使得硬件错误成为常态2. 数据流访问：所有应用以流的方式访问数据，设置之初便是为了用于批量的处理数据，而不是低延时的实时交互处理3. 大数据集：典型的HDFS集群上面的一个文件是以G或者T数量级的，支持一个集群当中的文件数量达到千万数量级4. 简单的相关模型：假定文件是一次写入，多次读取的操作5. 移动计算比移动数据便宜：一个应用请求的计算，离它操作的数据越近，就越高效6. 多种软硬件的可移植性...

2020-09-20 10:02:17 405

原创如何选择软件版本？

如何选择软件版本？当我们决定是否采用某个软件用于开源环境时，通常需要考虑以下几个因素：1. 是否为开源软件，即是否免费。2. 是否有稳定版，这个一般软件官方网站会给出说明。3. 是否经过实践验证，这个可以通过检查是否有一些大店的公司已经在生产环境中使用知道。4. 是否有强大的社区支持，当出现一个问题时，能够通过社区、论坛等网络资源快速获取解决办法。...

2020-09-19 23:55:22 533

原创 hdfs的命令

hdfs的命令9.5、hdfs的命令行使用lsUsage:hdfs dfs -ls [-R] <args>Options:The -R option will return stat recursively through the directory structure.For a file returns stat on the file with the following format:permissions number_of_replic...

2020-09-19 23:24:16 174

转载转载：运行hadoop基准测试

原始链接：https://blog.csdn.net/azhao_dn/article/details/6930909运行hadoop基准测试由于需要为hadoop集群采购新的服务器，需要对服务器在hadoop环境下的性能进行测试，所以特地整理了一下hadoop集群自带的测试用例： bin/hadoop jar hadoop-*test*.jar 运行上述命令，可以得到hadoop-*test*.jar自带的测试程序 An example ...

2020-09-19 16:46:28 222

原创 hadoop的架构模型

资料来源于网络4、hadoop的架构模型（1.x，2.x的各种架构模型介绍）4.1、1.x的版本架构模型介绍文件系统核心模块：NameNode：集群当中的主节点，主要用于管理集群当中的各种数据secondaryNameNode：主要能用于hadoop当中元数据信息的辅助管理DataNode：集群当中的从节点，主要用于存储集群当中的各种数据数据计算核心模块：JobTracker：接收用户的计算请求任务，并分配任务给从节点TaskTracker：负责执行主节点..

2020-09-19 16:41:33 183

原创 linux使用：sudo使用：ALL=(ALL)的详细解释

资料来源于网络。linux使用：sudo使用：ALL=(ALL)的详细解释sudo使用sudo 是为所有想使用 root 权限的普通用户设计的。可以让普通用户具有临时使用 root 权限的权利。只需输入自己账户的密码即可。当然这个普通用户必须在/etc/sudoers 文件中有配置项、才具有使用 sudo 的权利。没有配置权限之前,普通用户无法进行 root 权限操作使用 root 用户编辑/etc/sudoers 文件，给普通用户授权命令行输入 visudo，打开/et...

2020-09-19 16:36:22 7734 1