分布式/数据库
LandscapeMi
这个作者很懒,什么都没留下…
展开
-
hadoop_7 : MapReduce续
MapReduce的体系JAVA APIInputFormat---Mapper---Partitioner---Reducer---OutputFormat新旧版的API接口变抽象类上下文的封装hadoop版本1. Cloudera Hadoop:CHD3 和 CHD42. writable类型原创 2016-02-01 22:26:45 · 240 阅读 · 0 评论 -
spark_1:spark的发展
hadoopMRv1hadoop1.0采用MRv1版本,实现封装在org.apache.hadoop.mapred包,通过接口编程实现不足 扩展性差利用率低无法支撑多种Mapreduce框架(spark等)三个部分组成 运行时环境: Jobtracker和Tasktracker编程模型:MapReduce数据处理引擎:Map任务和Reduce任务MRv2对运行环境做调整(job原创 2016-02-20 14:41:27 · 305 阅读 · 0 评论 -
spark_2:spark的基础
基础Applicationspark的应用程序,包括一个Driver programe和若干个Executorsprakcontextsprak的应用程序入口,负责调度各个运算资源,协调各个worker node上的ExecutorDriver Program运行appilcation的main()函数并创建SparkContextExecutorApllication运行在work原创 2016-02-20 16:01:11 · 349 阅读 · 0 评论 -
spark_3:spark的基础
RDD可被切分由一个函数计算每一个分片对其他的RDD依赖可选:key-value的rdd是根据hash来分区的,类似于partitioner接口RDD计算模式Iterative AlgorithmsRelational QueriesMapRdecueStreamingRDD的四个核心方法getPartitions: 返回一系列partitions集合getDependenc原创 2016-02-21 16:56:02 · 286 阅读 · 0 评论 -
数据库_1: MySQL:基础
SQL基础整数 整数字节 字节数 无符号取值范围 有符号取值范围 TINYINT 1 0~255 -128~127 SMALLINT 2 0~65535 -32768~32768 MEDIUMINT 3 0~16777215 -8388608~8388608 INT 4 INTEGER 4 BI原创 2016-02-20 12:19:17 · 304 阅读 · 0 评论 -
数据库_2: HIVE
hive架构独立于集群之外,可以视为Hadooop的客户端Metastore是Hive的元数据集中存放池用户接口:CLIThrift服务器 以服务器模式运行,供客户连接 thrift是一个软件框架,用来进行可扩展且跨语言的服务的开发。它结合了功能强大的软件堆栈和代码生成引擎,以构建在 C++, Java, Python, PHP, Ruby, Erlang, Perl, Haskell,原创 2016-02-20 13:04:33 · 329 阅读 · 0 评论 -
spark配置:spark集群
http://www.cnblogs.com/onetwo/p/5424377.html1. 软件版本scala-2.11.8.tgzspark-1.6.1-bin-hadoop2.6.tgz2. scala安装2.1 0master机器安装下载 scala-2.11.8.tgz, 解压到 /usr/scala 目录下,即: /usr/scala/scala-2.11.8。解压:tar -zx原创 2016-12-22 00:45:48 · 792 阅读 · 0 评论 -
hadoop_6 : Hadoop的相关技术
序列化对象序列化:用于将对象编码成一个字节流,以及从字节流重新构建hadoop的序列化机制org.apache.hadoop.io.Wirtable接口org.apache.hadoop.io.Comparable接口 >: Writable //输出序列化结果到流中 +write (对象状态写入到二进制DataOutput) +readFiel原创 2016-02-01 22:19:42 · 315 阅读 · 0 评论 -
hadoop_7 : MapReduce代码
HelloWordpublic原创 2016-02-13 19:37:48 · 680 阅读 · 0 评论 -
Hadoop_1: wordcount
mapreduce=map()+ reduce()map=输入key,value>+输出key,value> + 输出redeuce=输入key, list_of_value> + 输出key,value>wordcountinput: str1= Hello World; str2= Hello Hadoopoutput: Hello 2; World 1; H原创 2016-01-23 21:31:49 · 313 阅读 · 0 评论 -
Hadoop_2:HDFS
HDFS概念数据块:64M;减少寻址时间将块复制到少数独立机器(备份)namenode 和 datanodenamenode:管理者:维护文件系统树datanode: 工作者:临时,记录每个文件中各个块所在的数据节点信息namenode的备份:(1)写入远程的NFS;(2)secondnamenode命令:hadoop fs -lshadoop fs -copyFromLocal原创 2016-01-24 20:58:51 · 462 阅读 · 0 评论 -
Hadoop_3: Hadoop I/O
数据的完整性HDFS对写入数据计算校验和,并在读取数据的时候验证校验和本地文件系统的数据完整性:在创建a文件的同时,在同一个文件下创建.a.crc校验I/O校验:datanode压缩codec:实现压缩解压算法// 使用压缩JobConf conf=new Jobconf();conf.setBoolean("mapred.output.compress",true)输入切片压缩格式原创 2016-01-24 22:04:59 · 271 阅读 · 0 评论 -
hadoop_4 : Hadoop的管理
典型设备处理器: 2个四核 2~2.5 GHz CPU内存: 16~24G存储: 4*1TB SATA硬盘网络: 千兆以太网原创 2016-01-26 21:06:12 · 282 阅读 · 0 评论 -
hadoop_5 : Hadoop的机制
4个独立的实体* 客户端: 提交MapReduce作业* jobtracker:协调作业的运行* tasktracker:运行作业划分后的任务* 分布式文件系统A…… 提交作业:runjob* runjob()每秒轮询作业进度B…… JobClient的submitjob方法过程* 向jobtracker提交请求,得到作业ID(步骤2)* 检查作业的输出* 计算作业的输入分片* 将原创 2016-01-29 20:48:35 · 342 阅读 · 0 评论 -
spark 配置:yarn集群
http://www.cnblogs.com/onetwo/p/5424377.html1. 规划1.1 硬件华白:master+slave3: master: 192.168.1.101slave3:192.168.1.203华台:slave1+slave2 192.168.1.201192.168.1.2021.2 软件版本VMware-Fusi原创 2016-12-19 17:23:02 · 746 阅读 · 0 评论