自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 线性回归与梯度下降(gradient descent) python

环境 numpy (1.12.1) + python 2.7#!/usr/bin/env python #coding:utf-8import numpy as np x1 = np.asarray([1,3,5]) # 训练样本x2 = np.asarray([1,4,4])y1 = 100y2 = 150W = np.zeros(3) # 初始化参数def

2018-01-24 23:03:24 365

原创 MapReduce中的shuffle机制

shuffle机制是mapreduce整个处理过程中的核心机制,涉及到了分组、排序、数据缓存以及中间结果传递(map结果怎么交付给reduce),其整个过程可以用一张图表示。1.分组当没有自定义分组时,默认所有的key在一个分组中。如果有自定义分组,则按照自定义的分组逻辑进行分组,对应图中的partitions,一个分组为一个partition。从图中可以看出一个partition被传

2016-09-04 22:26:20 1081

原创 MapReduce自定义分组实现

当mapreduce没有自定义分组时,map中所有的key被分为一组,其分组操作默认是走的HashPartitioner:public class HashPartitioner extends Partitioner { /** Use {@link Object#hashCode()} to partition. */ public int getPartition(K key,

2016-09-04 22:02:07 2075 2

原创 MapReduce自定义数据类型

实现WritableComparable接口的类大多数(在io包中的都可以)可以作为MapReduce中Mapper或Reducer的key-value数据类型。在hadoop框架中自带实现WritableComparable接口的类(FlowBean是自定义的)有:可以看出,自带的类实现了对整形,浮点型,布尔型及String(Text类)的封装,都是比较简单的数据类型,在实际应用中通常需

2016-09-04 19:11:01 3443

原创 HDFS 的Java操作“ Wrong FS: hdfs://xxx, expected: file:///”

从HDFS集群中下载文件到本地:import java.io.FileOutputStream;import java.io.IOException;import org.apache.commons.io.IOUtils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputS

2016-09-03 18:24:11 4668 1

原创 HDFS分布式存储框架

HDFS实现了大数据的分布式存储,在HDFS集群中主要包括namenode节点和datanode节点。namenode节点namenode节点负责管理元数据信息以及响应客户端的请求(上传、下载...注意,HDFS集群不支持修改操作)。元数据什么是元数据,为什么需要对元数据信息进行管理呢?因为集群是分布式的,不是单机存储(文件存储在真是路径下)。虽然是分布式存储,但是我们访问的时候实

2016-09-03 15:51:24 1249

原创 Storm简单介绍

官网简介Apache Storm is a free and open source distributed realtime computation system. Storm makes it easy to reliably process unbounded streams of data, doing for realtime processing what Hadoop did

2016-08-28 13:13:36 456

原创 Hbase介绍及应用

官网的介绍:Use Apache HBase™ when you need random, realtime read/write access to your Big Data. This project's goal is the hosting of very large tables -- billions of rows X millions of columns. 大意是Hbase用于

2016-08-27 21:01:47 468

原创 Hive 使用

Hive使用主要分为以下几个步骤:建立表导入数据SQL查询开始正文前先考虑几个问题:Hive中不支持insert 语句向表中导入数据,那么建立的空表怎么和集群中的数据关联起来呢?怎么理解数据库中的表和集群中数据的关联?Hive是做的其实是一种翻译工作,将mapreduce程序翻译成SQL语言。那么执行SQL查询语句时,SQL会被翻译成mapreduce来执行吗?Hi

2016-08-26 16:54:45 532

原创 Hive 安装及元数据库配置

Hive安装及启动安装:到官网 http://hive.apache.org/index.html 下载安装包,上传到hadoop集群中任意节点上,解压后就算安装成功;启动:进入bin目录,执行 ./hive 指令即可将Hive启动。尝试建立数据库,创建表:这是bin目录下会多出一个文件metastore_db,保存数据库元数据信息,如下图:此时退出hive(e

2016-08-25 19:24:52 610

原创 Hive 简单介绍

官网的介绍:The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. 大意是Hive数据仓库实现了利用SQL对分布式数据库的查询和管理。Hive出现原因:map

2016-08-25 18:24:21 543

原创 基于zookeeper的hadoop HA实现

非HA集群的弊端HDFS集群的分布式存储是靠namenode节点(namenode负责响应客户端请求)来实现。在非HA集群中一旦namenode宕机,虽然元数据不会丢失,但整个集群将无法对外提供服务,导致HDFS服务的可靠性不高。HA机制上述分析可知导致服务可靠性不高的原因是namenode节点宕机,那么怎么才能避免这个namenode节点宕机导

2016-08-24 18:28:33 13922

原创 Java类初始化机制

类的初始化步骤加载:将.class文件从磁盘加载到内存,然后在堆区创建一个java.lang.Class对象,这个对象封装了类的全部信息。连接:确保被加载的.class文件符合规范,如果符合规范则为类的静态变量分配内存并赋予默认值。初始化:为类的静态变量赋予正确的值(所谓正确是指用户赋予的值)。在连接过程中,静态变量的默认值赋值规则为:整形赋值为0,浮点型赋值为0.0,布尔型赋值为

2016-08-22 09:28:39 371

原创 RPC调用远程服务

RPC(Remote Procedure Call Protocol,远程过程调用协议),可以使本机像调用本地类一样调用远程服务,只需要提供一个接口给调用端,就可以使用RPC工具类拿到远程服务代理,进而调用远程服务(发布的RPC服务)。关于RPC的具体介绍可以参见知乎上的回答(https://www.zhihu.com/question/25536695),本文仅介绍怎么使用Hadoop中的RPC

2016-08-21 10:10:29 4696

原创 zookeeper集群搭建问题:Cannot open channel to * at election address

zookeeper集群搭建问题:Cannot open channel to * at election address

2016-08-19 18:55:21 45103 7

原创 Java函数参数的“传值”与“传引用”

一言以蔽之,基本数据类型是传递值,引用数据类型(数组,对象)是传递。具体请看如下代码:/** * 测试类 * @author lsl * */public class Person {    private int age;        public int getAge() {        return age;    }    public

2016-08-17 20:20:06 552

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除