- 博客(18)
- 资源 (19)
- 收藏
- 关注
原创 MapReduce InputFormat——DBInputFormat
一、背景 为了方便MapReduce直接访问关系型数据库(Mysql,Oracle),Hadoop提供了DBInputFormat和DBOutputFormat两个类。通过DBInputFormat类把数据库表数据读入到HDFS,根据DBOutputFormat类把MapReduce产生的结果集导入到数据库表中。二、技术细节1、DBInputFormat(Mys...
2015-11-30 10:38:01 2655
原创 MapReduce InputFormat之FileInputFormat
一:简单认识InputFormat类InputFormat主要用于描述输入数据的格式,提供了以下两个功能: 1)、数据切分,按照某个策略将输入数据且分成若干个split,以便确定Map Task的个数即Mapper的个数,在MapReduce框架中,一个split就意味着需要一个Map Task; 2)为Mapper提供输入数据,即给定一个spli...
2015-11-30 09:19:00 2402
原创 沈阳东网科技和福建卓智网络面试心得
2015年11月25日迎来了人生的第一次面试,虽然是在电话中但还是有点紧张2015年11月27日第二面试,这一次所不同的是和面试官面对面展开讨论经过这两次面试现在做出以下总结:1:问题的展开从头到尾面试官所展开的一切问题都是紧紧围绕着你的简历展开的,所以对于简历尽量不要弄虚作假,如果说弄虚作假的话,一定要圆满,即对于简历上写的内容要做到九分了解,因为一旦你回答或者解释不了简历上的问题...
2015-11-29 18:46:42 5294
原创 HDFS学习笔记
1.1、数据块(block)HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。 和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。 不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。1.2、元数据节点(Namenode)和数据节点(datanode)元...
2015-11-29 18:25:51 2258
翻译 关系型数据库的理解
1.关系型数据库简单的可以理解为二维数据库,表的格式就如Excel,有行有列。常用的关系数据库有Oracle,SqlServer,Informix,MySql,SyBase等。(也即是我们平时看到的数据库,都是关系型数据库)2.所谓关系型数据库,是指采用了关系模型来组织数据的数据库。关系模型是在1970年由IBM的研究员E.F.Codd博士首先提出,在之后的几十年中,关系模型的概念得到了充...
2015-11-26 19:43:50 4625
翻译 Yarn详解
问题导读:1、什么是yarn?2、Yarn 和MapReduce相比,它有什么特殊作用 ?背景Yarn是一个分布式的资源管理系统,用以提高分布式的集群环境下的资源利用率,这些资源包括内存、IO、网络、磁盘等。其产生的原因是为了解决原MapReduce框架的不足。最初MapReduce的committer们还可以周期性的在已有的代码上进行修改,可是随着代码的增加以...
2015-11-26 00:33:15 2683
翻译 HDFS Federation(HDFS 联邦)(Hadoop2.3)
最早接触Federation这个词还是第一家公司用的DB2联邦数据库。第一代HadoopHDFS:结构上由一个namenode和众多datanode组成。功能上划分为namespace和block storage service 两部分。所谓的HDFS Federation就是有多个namenode(或者说namespace)。如图:这里有blo...
2015-11-26 00:23:10 5299
原创 MapReduce编程实例之自定义排序
任务描述:给出一组数据,自定义排序的样式,第一列降序,相同时第二列升序example Data:2013 12013 52014 52014 82015 92015 4Code:package mrTest;import java.io.DataInput;import java.io.DataOutput;import java.io.IOExcep...
2015-11-25 23:30:59 2656
原创 MapReduce编程实例之自定义分区
任务描述:一组数据,按照年份的不同将其分别存放在不同的文件里example Data:2013 12013 52014 52014 82015 92015 4Code:package mrTest;import java.io.IOException;import java.util.StringTokenizer;import org.apache...
2015-11-25 21:54:03 4457
原创 MapReduce编程实践之自定义数据类型
一:任务描述自定义数据类型完成手机流量的分析二:example data格式为:记录报告时间戳、手机号码、AP mac、AC mac、访问的网址、网址种类、上行数据包数、下行数据包数、上行总流量、下行总流量、HTTP Response的状态。136315798506613726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82i02.c...
2015-11-24 18:51:50 3228
原创 Mapeduce编程八大步骤
Mapreduce编程八大步1.1:指定读取的文件位于哪里FileInputFormat.setInputPaths()指定如何对输入文件进行格式化,把输入文本每一行解析为键值对job.setInputFormatClass()1.2:指定自定义的Map类job.setMapperClass()//map输出的<k,v>类型,如果<k3,v3>的类型与<...
2015-11-24 16:54:37 2682
原创 MapReduce编程实例之数据去重
任务描述:让原始数据中出现次数超过一次的数据在输出文件中只出现一次。example data:2015-3-1 a2015-3-2 b2015-3-3 c2015-3-4 d2015-3-5 e2015-3-6 f2015-3-7 g2015-3-1 a2015-3-2 b2015-3-3 c2015-3-4 d2015-3-5 e2015-3-6 f2015...
2015-11-24 16:42:57 3024
原创 MapReduce编程实例之倒排索引
任务描述:有一批电话清单,记录了用户A拨打给用户B的记录做一个倒排索引,记录拨打给用户B所有的用户A、example data:13614004876 11018940084808 1008613342445911 1000113614004876 12018940084808 100861113342445911 11015847985621 10000code...
2015-11-24 15:59:40 3258
原创 00.Python manage.py shell和 Python的分析
环境:Python 2.7.6 django1.8.6IDE:Pycharm编写了一个模板,数据库连接的是MySQl数据库(具体配置参考http://blog.csdn.net/gamer_gyt/article/details/49976119)可是pycharm中启动服务的时候报错如下:................django.core.exceptions.Im...
2015-11-22 11:00:22 7126
翻译 深刻理解Python中的元类(metaclass)
类也是对象在理解元类之前,你需要先掌握Python中的类。Python中类的概念借鉴于Smalltalk,这显得有些奇特。在大...
2015-11-15 15:16:33 3029
原创 javac / java 命令详解
javac是用来编译.java文件的。命令行下直接输入javac可以看到大量提示信息,提示javac命令的用法,我只知道常用的。javac -d destdir srcFile其中:1、-d destdir是用来指定存放编译生成的.class文件的路径。(若此选项省略,那么默认在当前目录下生成.class文件,并且没有生成包文件夹;当前目录可以用“.”来表示,即:javac -d ....
2015-11-14 23:24:51 2566
原创 hdfs之快照的学习
HDFS快照是文件系统的只读的实时的拷贝,可以是文件系统的一部分或者整个文件系统。快照的一些通用场景是数据备份,对用户错误的保护和灾难恢复。HDFS的快照实现是高效的:快照的创建时瞬间完成的,排除查找inode的时间,需要花费O(1),即常数时间。 只有执行与快照相关的修改时才需要额外的内存,内存开销为O(M),M为修改的文件或者目录的数量。 DataNodes中的块不会被复制,快...
2015-11-14 17:19:44 3199
原创 Python 类属性的理解
一:类的属性包括1:实例属性2:类属性3:私有属性例子:(1):以双下划线开头标志的字符classA:def__init__(self):self.__x=1definfo(self):printself.__xa=A()a.info()a.__x=2a.info()...
2015-11-13 17:09:09 2078
word2vec.zip
2019-11-13
NLP汉语自然语言处理原理与实战
2018-06-15
gephi-0.9.1-windows.exe
2017-02-14
mysql-connector-java-5.0.4-bin.jar
2017-02-14
commons-el-1.0.jar,jasper-compiler.jar,jasper-runtime.jar
2016-07-28
从疝气病症预测病马的死亡率的测试数据集
2016-04-25
十大算法之线性查找算法
2015-07-29
securboot未完全配置消除补丁
2014-08-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人