牛逸凡的博客

不是很对,但是很累。

HIVE和HBASE区别

Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询--因为它只能够在Haoop上批量的...

2018-07-30 17:31:10

阅读数 101

评论数 0

Spark Streaming 数据清理机制

前言 为啥要了解机制呢?这就好比JVM的垃圾回收,虽然JVM的垃圾回收已经巨牛了,但是依然会遇到很多和它相关的case导致系统运行不正常。 这个内容我记得自己刚接触Spark Streaming的时候,老板也问过我,运行期间会保留多少个RDD? 当时没回答出来。后面在群里也有人问到了,所以就整...

2018-07-23 22:07:26

阅读数 151

评论数 0

spark高效的分布式计算架构

目标Scope(解决什么问题) 在大规模的特定数据集上的迭代运算或重复查询检索 官方定义: a MapReduce-like cluster computing framework designed for low-latency interativejobs and interactive...

2018-07-21 14:54:25

阅读数 1729

评论数 0

模拟面试编写sql

1、原材料表(材料id,材料名称,材料单价,材料数量) 2、商品表(商品id,商品名称,商品单价,材料id,材料数量) 3、销售记录表(销售id,商品id,销售数量,销售日期) 4、每日帐目汇总表(日id,日商品总成本,日商品总收入,日纯收入,销售日期)----当天算出前一天的 5、每月帐目汇总表...

2018-07-21 14:28:43

阅读数 57

评论数 0

常用面试SQL

S(S#,SN,SD,SA)   【分别代表学号,学员姓名,所属单位,学员年龄】 C(C#,CN)         【分别代表课程编号,课程名称】 SC(S#,C#,G)      【分别代表学号,所选的课程编号,学习成绩】 insert into sc values(s1,c1,10); in...

2018-07-21 14:26:37

阅读数 153

评论数 0

mapreduce初期学习

MapReduce框架作为Hadoop发展初期的核心计算框架,为大数据处理技术飞速演进提供了基石。在Hadoop生态圈中,MapReduce框架由于其成熟稳定的性能,仍然是离线批处理技术的主力。以我们的北京移动大数据集群为例,Hive、SparkSQL是支撑探索性数据查询的主要工具,其简单易懂的...

2018-07-19 10:54:49

阅读数 268

评论数 0

mapreduce编程初探

1.map和reduce 1.1 mapReduce处理逻辑 在本系列文章的第一篇中,曾对MapReduce原理做过简单的描述,在这里再重述一遍。  首先我们有两个文件word1.txt和word2.txt  其中word1.txt的内容如下: aaaa bbbb cccc dddd aa...

2018-07-19 10:49:35

阅读数 918

评论数 1

mapreduce新编程实例

前言 上一篇文章,以WordCount为例讲了一下MapReduce的代码结构及运行机制,这篇文章将通过几个简单的例子进一步认识MapReduce。 1.数据检索 问题描述 假设有很多条数据,我们从中查找包含某个字符串的语句。 解决方案 这个问题比较简单,首先在Map中获取当前读取的文...

2018-07-19 10:46:41

阅读数 270

评论数 0

mapreduce编程模板

1.MapReduce 编程模型的5个步骤:   1)迭代,将输入数据解析成 key/value 对;   2)将解析的 key/value经过Map处理映射成另一组key/value对;   3)根据key进行分组;   4)以分组为单位进行归约(Reduce 过程);   5)迭代,...

2018-07-19 10:41:41

阅读数 144

评论数 0

mapreduce简单编写

一. MapReduce 编程模型 还是以一个经典的图片来说明问题. 1. 首先, 我们能确定我们有一份输入, 而且他的数据量会很大 2. 通过split之后, 他变成了若干的分片, 每个分片交给一个Map处理 3. map处理完后, tasktracker会把数据进行复制和排序, 然...

2018-07-19 10:38:52

阅读数 1400

评论数 0

mapreduce常用计算模型详解必读

一.MapReduce应用场景 MR能解决什么问题?一般来说,用的最多的应该是日志分析,海量数据排序处理。最近一段时间公司用MR来解决大量日志的离线并行分析问题。 二.MapReduce机制 对于不熟悉MR工作原理的同学,推荐大家先去看一篇博文:https://blog.csdn.net/w...

2018-07-19 10:36:03

阅读数 109

评论数 0

mapreduce求平均值

一、问题描述 三个文件中分别存储了学生的语文、数学和英语成绩,输出每个学生的平均分。 数据格式如下:  Chinese.txt 张三 78 李四 89 王五 96 赵六 67 Math.txt 张三 88 李四 99 王五 66 赵六 ...

2018-07-19 10:27:35

阅读数 167

评论数 0

mapreduce排序

一、问题描述 文件中存储了商品id和商品价格的信息,文件中每行2列,第一列文本类型代表商品id,第二列为double类型代表商品价格。数据格式如下: pid0 334589.41 pid1 663306.49 pid2 499226.8 pid3 130618.22 pid4 513708....

2018-07-19 10:26:05

阅读数 333

评论数 0

mapreduce合并去重

一、问题描述 对输入的多个文件进行合并,并剔除其中重复的内容,去重后的内容输出到一个文件中。 file1.txt中的内容: 20150101 x 20150102 y 20150103 x 20150104 y file2.txt中的内容: 20...

2018-07-19 10:24:32

阅读数 159

评论数 0

mapreduce单表关联----求爷孙关系

一、问题描述 下面给出一个child-parent的表格,要求挖掘其中的父子辈关系,给出祖孙辈关系的表格。 输入文件内容如下: child parent Steven Lucy Steven Jack Jone Lucy Jone Jack Lucy ...

2018-07-19 10:22:01

阅读数 585

评论数 0

大数据面试题汇总【有自己的和网上总结的】

1. 选择题 1.1. 下面哪个程序负责 HDFS 数据存储。 c)Datanode  答案 C datanode 1.2. HDfS 中的 block 默认保存几份? a)3 份  答案 A 默认 3 份 1.3. 下列哪个程序通常与 NameNode 在一个节点启动? d)Jobt...

2018-07-17 15:57:50

阅读数 1096

评论数 0

大数据面试题必读2

1.从前到后从你教育背景(学过哪些课)到各个项目你负责的模块,问的很细(本以为他是物理学博士,但是所有的技术都懂) 2.hadoop 的 namenode 宕机,怎么解决 先分析宕机后的损失,宕机后直接导致client无法访问,内存中的元数据丢失,但是硬盘中的元数据应该还存在,如果只是节点挂了, ...

2018-07-17 15:45:27

阅读数 93

评论数 0

大数据面试题必读

kafka的message包括哪些信息   一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成   header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。当magic的值为1的时候,会在magi...

2018-07-17 15:36:09

阅读数 393

评论数 0

HDFS读写过程的详细分析

首先我们来认识一下HDFS, HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。它其实是将一个大文件分成若干块保存在不同服务器的多个节点中。通过联网让用户感觉像是在本地一样查看文件,为了降低文件丢失造成的错误,它会为每个小文件复制多个副本(默认为...

2018-07-17 15:34:15

阅读数 118

评论数 0

Hadoop 面试题及答案解析必读

目录 1 单选题 ....................................................................................................................

2018-07-17 15:34:05

阅读数 258

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭