自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(47)
  • 资源 (2)
  • 收藏
  • 关注

原创 eror---at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.init

2016-05-29 23:00:09,532 WARN  [Thread-12] mapred.LocalJobRunner (LocalJobRunner.java:run(560)) - job_local1841304029_0001java.lang.Exception: java.lang.NullPointerException    at org.apache.hadoop

2016-05-29 23:06:05 2608 3

原创 hadoop jar wc.jar com.map.red.job.WordCountJob

[root@bigdataspark ~]# hadoop jar wc.jar com.map.red.job.WordCountJob16/05/22 19:20:24 WARN mapreduce.JobSubmitter: Hadoop command-line option parsing not performed. Implement the Tool interface and

2016-05-28 13:15:35 1240 1

转载 mapreduce运行机制

mapreduce运行机制,这些按照时间顺序包括:输入分片(input split)、map阶段、combiner阶段、shuffle阶段和reduce阶段。1. 输入分片(input split):在进行map计算之前,mapreduce会根据输入文件计算输入分片(input split),每个输入分片(input split)针对一个map任务,输入分片(input split)存储的并非

2016-05-27 18:01:01 426

原创 通过http 协议 可以访问 Hadoop 50070 端口,hadoop 里面配置的servlet 是什么容器呢 ?

Jetty 是一个开源的servlet容器,它为基于Java的web容器,例如JSP和servlet提供运行环境。Jetty是使用Java语言编写的,它的API以一组JAR包的形式发布。开发人员可以将Jetty容器实例化成一个对象,可以迅速为一些独立运行(stand-alone)的Java应用提供网络和web连接。

2016-05-27 15:49:48 1159

原创 HDFS 高可用,hdfs-site.xml 配置及说明,更详细参考官网

dfs.replication        3        dfs.nameservices  mycluster  dfs.ha.namenodes.mycluster  nn1,nn2  dfs.namenode.rpc-address.mycluster.nn1  bigdatastorm:8020  dfs.

2016-05-23 17:02:37 2199

原创 yarn-site.xml and mapred-site.xml 配置以及属性说明

//启用yarn 作为资源管理框架            mapreduce.framework.name        yarn    //启用高可用   yarn.resourcemanager.ha.enabled   true // 定义集群的名称    yarn.resourcemanager.clu

2016-05-23 15:45:08 3336

原创 Spark 源码剖析

Spark 源码剖析

2016-05-20 16:15:10 373

原创 window eclipse 访问远程虚拟机 Hdfs

package com.ibm.w3;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apache.hadoop.fs.FSDataOutputStream;import org

2016-05-20 09:08:10 1226

原创 hadoop的伪分布环境配置(2.5.2)

/hadoop/etc/hadoop/core-site.xml  Licensed under the Apache License, Version 2.0 (the "License");  you may not use this file except in compliance with the License.  You may o

2016-05-20 07:18:01 521

原创 hadoop的伪分布安装(低版本)

1.hadoop的伪分布安装1.1.使用root用户,密码是hadoop登录的。1.2.修改linux的ip地址    操作:(1)在linux桌面的右上角图标,右击,选择Edit Connections...          选择ipv4的手工方式设置ip为192.168.80.100,掩码255.255.255.0,网管是192.168.80.1           一步

2016-05-19 21:48:05 291

原创 星型模型&& 雪花模型

星形模式是一种多维的数据关系,它由一个事实表(Fact Table)和一星形模型举例组维表(Dimension Table)组成。每个维表都有一个维作为主键,所有这些维的主键组合成事实表的主键。事实表的非主键属性称为事实(Fact),它们一般都是数值或其他可以进行计算的数据;而维大都是文字、时间等类型的数据,按这种方式组织好数据我们就可以按照不同的维(事实表主键的部分或全部)来对这些事

2016-05-18 16:00:10 3232

原创 数据仓库维度建模

维度建模法维度建模将信息组织到结构中,这些结构通常对应于分析者希望对数据仓库数据使用的查询方法。1999 年第三季度西北地区的食品销售额是多少?表示使用三个维度(产品、地理、时间)指定要汇总的信息。星型模式之所以广泛被使用,在于针对各个维作了大量的预处理,如按照维进行预先的统计、分类、排序等。通过这些预处理,能够极大的提升数据仓库的处理能力。特别是针对 3NF 的建模方法,星型模式在性

2016-05-18 15:49:59 877

原创 云计算之Docker

Docker建立在LXC的基础上。与任何容器技术一样,就该程序而言,它有自己的文件系统、存储系统、处理器和内存等部件。容器与虚拟机之间的区别主要在于,虚拟机管理程序对整个设备进行抽象处理,而容器只是对操作系统内核进行抽象处理。这反过来意味着:虚拟机管理程序能做容器做不了的一件事就是,使用不同的操作系统或内核。所以,举例说,你可以使用微软Azure,同时运行Windows Server201

2016-05-18 08:50:22 397

原创 sed of shell

sed 是一种在线编辑器,它一次处理一行内容。处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(pattern space),接着用sed命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。接着处理下一行,这样不断重复,直到文件末尾。文件内容并没有 改变,除非你使用重定向存储输出。Sed主要用来自动编辑一个或多个文件;简化对文件的反复操作;编写转换程序等删除:

2016-05-18 07:58:00 436

原创 awk of shell

awk CommandPurpose       Finds lines in files that match a pattern and performs specified actions on those lines.Syntax       awk [ -u  ] [ -F Ere ] [ -v Assignment ] ... { -f ProgramF

2016-05-18 07:23:49 282

原创 fastdfs 简介

fastdfs  简介

2016-05-17 16:56:27 420

原创 怎么学好,使用好shell

shell 在大数据领域是必不可少的重要工具,那怎么学好,使用好shell ,

2016-05-17 09:43:38 884

原创 内存数据库 memcached

内存数据库 memcached

2016-05-17 09:14:30 583

原创 LVS & Nginx 的区别与优缺

最近在学习并发,发现这两个概念在高可用,高并发中起的作用有点模糊LVS

2016-05-16 08:07:13 3745

原创 keepalived ,lvs,tomcat 高可用,高并发,高性能 应用架构的搭建

keepalived ,lvs,tomcat 高可用,高并发,高性能  应用架构的搭建

2016-05-15 16:36:01 847

原创 keepalived ,egnix ,tomcat 高可用,高并发 应用架构的搭建

keepalived ,egnix ,tomcat 高可用,高并发 应用架构的搭建

2016-05-15 16:34:46 1052

原创 tengine 淘宝 nginx

NginxNginx ("engine x") 是一个高性能的 HTTP 和 反向代理 服务器,也是一个 IMAP/POP3/SMTP 代理服务器。其将源代码以类BSD许可证的形式发布,因它的稳定性、丰富的功能集、示例配置文件和低系统资源的消耗而闻名。2011年6月1日,nginx 1.0.4发布。Nginx是一款轻量级的Web 服务器/反向代理服务器及电子邮件(IMAP/POP3

2016-05-14 13:52:47 1379 1

转载 Java 读取网页简易程序

package com.ibm.downloadtool;import java.io.BufferedInputStream;import java.net.HttpURLConnection;import java.net.URL;import java.util.Scanner;public class DownLoadTool {    public sta

2016-05-12 09:17:38 382

原创 Spark 读取DB2 数据表

Spark 读取DB2 数据表

2016-05-12 08:45:28 2101 2

转载 How to Learn R

The R programming language was designed for doing statistics. In my view, its great popularity among statisticians, people learning statistics,data miners and others is due to the way it facilitie

2016-05-09 13:35:14 348

原创 数据挖掘与R语言,数据分析,机器学习

数据挖掘与R语言

2016-05-09 13:19:31 835

转载 Linux下bash中关于日期函数date的格式及各种用法

源地址 : https://fukun.org/archives/06112057.htmlExample1234567891011121314151617181920212223242526272829303132333435

2016-05-08 12:39:00 9130

原创 大数据之机器学习(11)

K近邻算法朴素贝叶斯决策树线性回归逻辑回归集成算法聚类算法特征降维EM算法协同过滤推荐算法关联规则推荐算法

2016-05-05 16:26:34 324

原创 unsolved 2 db2 issues

An error occurred while processing the results. - [jcc][t4][2030][11211][3.68.61]A communication error occurred during operations on the connection's underlying socket, socket input stream,or

2016-05-05 15:14:10 2064 1

原创 Pig

Pig

2016-05-05 14:04:22 264

原创 大数据技术可视化之Hue

大数据技术可视化之Hue

2016-05-05 14:01:13 1541

原创 大数据技术之kylin & tableau

大数据技术之kylin

2016-05-05 10:33:15 3217

原创 大数据技术之R

大数据技术之R

2016-05-05 10:31:24 300

原创 DB2 数据库清表语句

随时随地的

2016-05-04 20:15:52 2977

原创 DB2 数据库之数据打平函数

select num,       listagg(DSCR, ',') WITHIN GROUP(ORDER BY DSCR) as DSCRfrom DWDM2.QUOTE_TEMP where DSCR != 'E0003' group by num with ur;

2016-05-04 08:16:28 1381

原创 大数据技术之Hive

大数据技术

2016-05-03 22:59:01 519

原创 大数据技术之Hbase

大数据技术

2016-05-03 22:58:25 501

原创 大数据技术之Stome 概念

大数据技术

2016-05-03 22:58:02 2573

原创 大数据技术之Scala

大数据技术

2016-05-03 22:54:50 417

原创 大数据技术之Java

大数据技术

2016-05-03 22:54:25 548

etl 数据加载

etl 数据加载etl 数据加载etl 数据加载etl 数据加载

2011-11-10

数据库

数据库

2011-11-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除