MapReduce InputFormat——DBInputFormat

一、背景      为了方便MapReduce直接访问关系型数据库(Mysql,Oracle),Hadoop提供了DBInputFormat和DBOutputFormat两个类。通过 DBInputFormat类把数据库表数据读入到HDFS,根据DBOutputFormat类把MapReduce产生的结果集导入到数据库表中。 二、技术细节 1、DBInputFormat(M...
阅读(1378) 评论(0)

MapReduce InputFormat之FileInputFormat

一:简单认识InputFormat类 InputFormat主要用于描述输入数据的格式,提供了以下两个功能:          1)、数据切分,按照某个策略将输入数据且分成若干个split,以便确定Map Task的个数即Mapper的个数,在MapReduce框架中,一个split就意味着需要一个Map Task;          2)为Mapper提供输入数据,即给定一个split,(...
阅读(1072) 评论(0)

沈阳东网科技和福建卓智网络面试心得

2015年11月25日迎来了人生的第一次面试,虽然是在电话中但还是有点紧张 2015年11月27日第二面试,这一次所不同的是和面试官面对面展开讨论 经过这两次面试现在做出以下总结: 1:问题的展开 从头到尾面试官所展开的一切问题都是紧紧围绕着你的简历展开的,所以对于简历尽量不要弄虚作假,如果说弄虚作假的话,一定要圆满,即对于简历上写的内容要做到九分了解,因为一旦你回...
阅读(3033) 评论(0)

HDFS学习笔记

1.1、数据块(block) HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。 1.2、元数据节点(Namenode)和数据节点(datanode) ...
阅读(1059) 评论(0)

关系型数据库的理解

1.关系型数据库简单的可以理解为二维数据库,表的格式就如Excel,有行有列。常用的关系数据库有Oracle,SqlServer,Informix,MySql,SyBase等。(也即是我们平时看到的数据库,都是关系型数据库) 2.所谓关系型数据库,是指采用了关系模型来组织数据的数据库。关系模型是在1970年由IBM的研究员E.F.Codd博士首先提出,在之后的几十年中,关系模型的概念得到了充分的...
阅读(1536) 评论(0)

Yarn详解

问题导读: 1、什么是yarn? 2、Yarn 和MapReduce相比,它有什么特殊作用 ? 背景 Yarn是一个分布式的资源管理系统,用以提高分布式的集群环境下的资源利用率,这些资源包括内存、IO、网络、磁盘等。其产生的原因是为了解决原MapReduce框架的不足。最初MapReduce的committer们还可以周期性的在已有的代码上进行修改,可是...
阅读(1123) 评论(0)

HDFS Federation(HDFS 联邦)(Hadoop2.3)

最早接触Federation这个词还是第一家公司用的DB2联邦数据库。 第一代Hadoop HDFS:   结构上由一个namenode和众多datanode组成。 功能上划分为namespace和block storage service 两部分。   所谓的HDFS Federation就是有多个namenode(或者说namespace)。 ...
阅读(1848) 评论(0)

MapReduce编程实例之自定义排序

任务描述: 给出一组数据,自定义排序的样式,第一列降序,相同时第二列升序 example Data: 2013 1 2013 5 2014 5 2014 8 2015 9 2015 4 Code: package mrTest; import java.io.DataInput; import java.io.DataOutput; import java.io.IOEx...
阅读(1046) 评论(0)

MapReduce编程实例之自定义分区

任务描述: 一组数据,按照年份的不同将其分别存放在不同的文件里 example Data: 2013 1 2013 5 2014 5 2014 8 2015 9 2015 4 Code: package mrTest; import java.io.IOException; import java.util.StringTokenizer; import org.apach...
阅读(1762) 评论(0)

MapReduce编程实践之自定义数据类型

一:任务描述 自定义数据类型完成手机流量的分析 二:example data 格式为:记录报告时间戳、手机号码、AP mac、AC mac、访问的网址、网址种类、上行数据包数、下行数据包数、上行总流量、下行总流量、HTTP Response的状态。 1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i...
阅读(1383) 评论(0)

Mapeduce编程八大步骤

1.1:指定读取的文件位于哪里 FileInputFormat.setInputPaths() 指定如何对输入文件进行格式化,把输入文本每一行解析为键值对 job.setInputFormatClass() 1.2:指定自定义的Map类 job.setMapperClass() //map输出的类型,如果的类型与类型一致,则可以省略 //job.setMapOutputKey...
阅读(1295) 评论(0)

MapReduce编程实例之数据去重

任务描述: 让原始数据中出现次数超过一次的数据在输出文件中只出现一次。 example data: 2015-3-1 a 2015-3-2 b 2015-3-3 c 2015-3-4 d 2015-3-5 e 2015-3-6 f 2015-3-7 g 2015-3-1 a 2015-3-2 b 2015-3-3 c 2015-3-4 d 2015-3-5 e 201...
阅读(1045) 评论(0)

MapReduce编程实例之倒排索引 1

任务描述: 有一批电话清单,记录了用户A拨打给用户B的记录 做一个倒排索引,记录拨打给用户B所有的用户A、 example data: 13614004876 110 18940084808 10086 13342445911 10001 13614004876 120 18940084808 1008611 13342445911 110 1584798562...
阅读(1174) 评论(0)

00.Python manage.py shell和 Python的分析

环境:Python 2.7.6    django1.8.6 IDE:Pycharm 编写了一个模板,数据库连接的是MySQl数据库(具体配置参考) 可是pycharm中启动服务的时候报错如下: ................ django.core.exceptions.ImproperlyConfigured: Requested setting DEFAULT_INDEX_TAB...
阅读(2822) 评论(0)

深刻理解Python中的元类(metaclass)

类也是对象 在理解元类之前,你需要先掌握Python中的类。Python中类的概念借鉴于Smalltalk,这显得有些奇特。在大多数编程语言中,类就是一组用来描述如何生成一个对象的代码段。在Python中这一点仍然成立: 1 2 3 4 5 6 >>> class ObjectCreator(object)...
阅读(1818) 评论(0)

javac / java

javac是用来编译.java文件的。命令行下直接输入javac可以看到大量提示信息,提示javac命令的用法,我只知道常用的。 javac -d destdir srcFile 其中:1、-d destdir是用来指定存放编译生成的.class文件的路径。(若此选项省略,那么默认在当前目录下生成.class文件,并且没有生成包文件夹;当前目录可以用“.”来表示,即:javac -d ...
阅读(941) 评论(0)

hdfs之快照的学习

HDFS快照是文件系统的只读的实时的拷贝,可以是文件系统的一部分或者整个文件系统。快照的一些通用场景是数据备份,对用户错误的保护和灾难恢复。HDFS的快照实现是高效的: 快照的创建时瞬间完成的,排除查找inode的时间,需要花费O(1),即常数时间。只有执行与快照相关的修改时才需要额外的内存,内存开销为O(M),M为修改的文件或者目录的数量。DataNodes中的块不会被复制,快照文...
阅读(1212) 评论(0)

Python 类属性的理解

一:类的属性包括 1:实例属性 2:类属性 3:私有属性 例子: (1):以双下划线开头标志的字符 class A:     def __init__(self):         self.__x = 1     def info(self):         print self.__x a = A() a.info() a...
阅读(896) 评论(0)
    Thinkgamer微博
    个人微信,一起交流!

     扫一扫,关注我




    个人资料
    • 访问:758176次
    • 积分:9476
    • 等级:
    • 排名:第1976名
    • 原创:212篇
    • 转载:22篇
    • 译文:2篇
    • 评论:273条
    个人简介
    姓名:Thinkgamer

    Github:https://github.com/thinkgamer

    主攻:云计算/python/数据分析

    程度:熟悉/熟悉/熟悉

    微信:gyt13342445911

    Email:thinkgamer@163.com

    工作状态:在职ing

    心灵鸡汤:只要努力,你就是下一个大牛...

    hadoop/spark/机器学习群:279807394(大神建的群,蹭个管理员)

    欢迎骚扰........
    博客专栏
    最新评论