关闭

HDFS +zookeeper实现高可用

NameNode 高可用整体架构概述在 Hadoop 1.0 时代,Hadoop 的两大核心组件 HDFS NameNode 和 JobTracker 都存在着单点问题,这其中以 NameNode 的单点问题尤为严重。因为 NameNode 保存了整个 HDFS 的元数据信息,一旦 NameNode 挂掉,整个 HDFS 就无法访问,同时 Hadoop 生态系统中依赖于 HDFS 的各个组件,包括...
阅读(63) 评论(0)

高斯混合模型(GMM)

一、EM算法 EM算法是一种迭代算法,用于含有隐含变量的概率模型参数的极大似然估计。设Y为观测随机变量的数据,Z为隐藏的随机变量数据,Y和Z一起称为完全数据。 观测数据的似然函数为:模型参数θ的极大似然估计为:这个问题只有通过迭代求解,下面给出EM算法的迭代求解过程: step1、选择合适的参数初值θ(0),开始迭代 step2、E步,求期望。θ(i)为第i次迭代θ的估计值,在第i+1步,计...
阅读(32) 评论(0)

层次聚类

层次聚类,是一种很直观的算法。顾名思义就是要一层一层地进行聚类,可以从下而上地把小的cluster合并聚集,也可以从上而下地将大的cluster进行分割。似乎一般用得比较多的是从下而上地聚集,因此这里我就只介绍这一种。  所谓从下而上地合并cluster,具体而言,就是每次找到距离最短的两个cluster,然后进行合并成一个大的cluster,直到全部合并为一个cluster。整个过程就是建立一个树...
阅读(34) 评论(0)

聚类方法综述

引言 由聚类所生成的簇是一组数据对象的集合 ,这些在同一 个簇中的对象彼此相似,而与其他簇 中的对象相异。聚类分 析最大程度地实现类中对象相似度最大、类间对象相似度最 小 。 聚类算法大体可以划分为以下几类l2 “ :(1)基于划分 的方法 (partitioning m ethod)[ 。 ” ;(2)基于 层 次 的 方法 (hierarchical m ethod)C“...
阅读(38) 评论(0)

日志增强解析处理

现有一些原始日志需要做增强解析处理,流程: 1、 从原始日志文件中读取数据 2、 根据日志中的一个URL字段到外部知识库中获取信息增强到原始日志 3、 如果成功增强,则输出到增强结果目录;如果增强失败,则抽取原始数据中URL字段输出到待爬清单目录 分析 程序的关键点是要在一个mapreduce程序中根据数据的不同输出两类结果到不同目录,这类灵活的输出需求可以通过自定义outputfo...
阅读(45) 评论(0)

MR合并小文件

需求 无论hdfs还是mapreduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件的场景,此时,就需要有相应解决方案 分析 小文件的优化无非以下几种方式: 1、 在数据采集的时候,就将小文件或小批数据合成大文件再上传HDFS 2、 在业务处理之前,在HDFS上使用mapreduce程序对小文件进行合并 3、 在mapreduce处理时,可采用combineInputF...
阅读(17) 评论(0)

MR求两个用户的共同粉丝列表

以下是qq的好友列表数据,冒号前是一个用户,冒号后是该用户的所有好友(数据中的好友关系是单向的) A:B,C,D,F,E,O B:A,C,E,K C:F,A,D,I D:A,E,F,L E:B,C,D,M,L F:A,B,C,D,E,O,M G:A,C,D,E,F H:A,C,D,E,O I:A,O J:B,O K:A,C,D L:D,E,F M:E,F,G O:A,H,...
阅读(39) 评论(0)

MR倒排索引建立

倒排索引建立 需求:有大量的文本(文档、网页),需要建立搜索索引 倒排索引简单地就是:根据单词,返回它在哪个文件中出现过,而且频率是多少的结果。这就像百度里的搜索,你输入一个关键字,那么百度引擎就迅速的在它的服务器里找到有该关键字的文件,并根据频率和其他一些策略(如页面点击投票率)等来给你返回结果。这个过程中,倒排索引就起到很关键的作用。 分析设计 倒排索引涉及几个过程:Ma...
阅读(41) 评论(0)

hadoop MapReduce 输出结果中文乱码解决

hadoop涉及输出文本的默认输出编码统一用没有BOM的UTF-8的形式,但是对于中文的输出window系统默认的是GBK,有些格式文件例如CSV格式的文件用excel打开输出编码为没有BOM的UTF-8文件时,输出的结果为乱码,只能由UE或者记事本打开才能正常显示。因此将hadoop默认输出编码更改为GBK成为非常常见的需求。 自定义 TextOutputFormat.classpack...
阅读(67) 评论(0)

一致性hash算法的应用研究学习

一致性哈希算法 在1997年由麻省理工学院提出的一种分布式哈希(DHT)实现算法,设计目标是为了解决因特网中的热点(Hot spot)问题,初衷和CARP十分类似。一致性哈希修正了CARP使用的简单哈希算法带来的问题,使得分布式哈希(DHT)可以在P2P环境中真正得到应用。 一致性hash算法提出了在动态变化的Cache环境中,判定哈希算法好坏的四个定义: 1、平衡性(Balance):平衡性...
阅读(48) 评论(0)

mapreduce web日志预处理

需求: 对web访问日志中的各字段识别切分 去除日志中不合法的记录 根据KPI统计需求,生成各类访问请求过滤数据2、实现代码: a) 定义一个bean,用来记录日志数据中的各数据字段 public class WebLogBean {private String remote_addr;// 记录客户端的ip地址 private String remote_user;// 记录客户端用户名...
阅读(53) 评论(0)

大数据表转移hdfs后查询处理

reduce端join算法实现 1、需求: 订单数据表t_order: id date pid amount 1001 20150710 P0001 2 1002 20150710 P0001 3 1002 20150710 P0002 3商品信息表t_product id name category_id price...
阅读(60) 评论(0)

mapreduce数据压缩

概述 这是mapreduce的一种优化策略:通过压缩编码对mapper或者reducer的输出进行压缩,以减少磁盘IO,提高MR程序运行速度(但相应增加了cpu运算负担) 1、 Mapreduce支持将map输出的结果或者reduce输出的结果进行压缩,以减少网络IO或最终输出数据的体积 2、 压缩特性运用得当能提高性能,但运用不当也可能降低性能 3、 基本原则: 运算密集型的job...
阅读(53) 评论(0)

Mapreduce中的分区Partitioner

Mapreduce中的分区Partitioner 4.2.1 需求 根据归属地输出流量统计数据结果到不同文件,以便于在查询统计结果时可以定位到省级范围进行 4.2.2 分析 Mapreduce中会将map输出的kv对,按照相同key分组,然后分发给不同的reducetask 默认的分发规则为:根据key的hashcode%reducetask数来分发 所以:如果要按照我们自己的需求进行分...
阅读(55) 评论(0)

mapreduce对日志数据上下行流量汇总

Mapreduce中的排序初步 4.1.1 需求 对日志数据中的上下行流量信息汇总,并输出按照总流量倒序排序的结果 数据如下: 1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 24 27 2481 24681 200 1363157995052 13826544...
阅读(51) 评论(0)

MAPREDUCE原理

mapreduce的shuffle机制 3.1.1 概述:  mapreduce中,map阶段处理的数据如何传递给reduce阶段,是mapreduce框架中最关键的一个流程,这个流程就叫shuffle;  shuffle: 洗牌、发牌——(核心机制:数据分区,排序,缓存);  具体来说:就是将maptask输出的处理结果数据,分发给reducetask,并在分发的过程中,...
阅读(51) 评论(0)

最大熵模型与EM算法及python实现

统计学习基础回顾 1. 后验概率 2 2. . 极大似然法 (MLE)  信息论基础 1. (互)信息 2. 熵、条件熵 3. 交叉熵、相对熵  最大熵模型 1 1 . 凸优化理论推导 Maxent 2. 与 MLE 的关系  EM 算法 1 1 . GMM 实例 2. MLE 推导 我希望自己能通俗地把它理解或者说明白,但是,EM这个问题感觉真的不太好用通俗的语言去...
阅读(49) 评论(0)

zookeeper分布式原理实战解析

1.本实验基于centos7.3 +虚拟机VM+zookeeper-3.4.5.tar.gz环境下安装了三台集群测试。 安装参考:http://www.linuxidc.com/Linux/2016-09/135052.htm 启动zookeeper集群shell脚本 #!/bin/bash cd /opt/apps/zookeeper/bin ./zkServer.sh start ssh...
阅读(47) 评论(0)

基于微服务架构的门户平台改造的研究

...
阅读(37) 评论(0)

欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦: Markdown和扩展Markdown简洁的语法 代码块高亮 图片链接和图片上传 LaTex数学公式 UML序列图和流程图 离线写博客 导入导出Markdown文件 丰富的快捷键 快捷键 加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl...
阅读(59) 评论(0)
22条 共2页1 2 下一页 尾页
    个人资料
    • 访问:8879次
    • 积分:253
    • 等级:
    • 排名:千里之外
    • 原创:16篇
    • 转载:6篇
    • 译文:0篇
    • 评论:0条