大数据
文章平均质量分 92
不能飞的肥燕
10多年IT经验,5年多阿里巴巴和百度等的工作经验,互联网相关技术娴熟扎实。
展开
-
hadoop集群监控工具ambari
Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari目前已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hc转载 2015-03-06 16:30:19 · 2559 阅读 · 0 评论 -
Ganglia监控Hadoop及Hbase集群性能(安装配置)
1 Ganglia简介Ganglia 是 UC Berkeley 发起的一个开源监视项目,设计用于测量数以千计的节点。每台计算机都运行一个收集和发送度量数据(如处理器速度、内存使用量等)的名为 gmond 的守护进程。它将从操作系统和指定主机中收集。接收所有度量数据的主机可以显示这些数据并且可以将这些数据的精简表单传递到层次结构中。正因为有这种层次结构模式,才使得 Ganglia 可以实现转载 2015-03-06 15:54:10 · 1594 阅读 · 0 评论 -
Flume NG 简介及配置实战
Flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。但随着 FLume 功能的扩展,Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来,尤其是在 Flume OG 的最后一个发行版本 0.94.0 中,日志传输转载 2015-04-20 15:07:20 · 758 阅读 · 0 评论 -
HDFS配置Kerberos认证
HDFS配置Kerberos认证2014.11.04本文主要记录 CDH Hadoop 集群上配置 HDFS 集成 Kerberos 的过程,包括 Kerberos 的安装和 Hadoop 相关配置修改说明。注意:下面第一、二部分内容,摘抄自《Hadoop的kerberos的实践部署》,主要是为了对 Hadoop 的认证机制和 Kerberos 认证协议做个转载 2015-04-08 13:46:41 · 2300 阅读 · 0 评论 -
Installing HBase-命令行
To install HBase On Red Hat-compatible systems:$ sudo yum install hbaseTo install HBase on Ubuntu and Debian systems:$ sudo apt-get install hbaseTo install HBase on SLES systems:$ sudo z原创 2015-04-07 16:49:23 · 717 阅读 · 0 评论 -
一共81个,开源大数据处理工具汇总
一共81个,开源大数据处理工具汇总(上)一共81个,开源大数据处理工具汇总(下),包括日志收集系统/集群管理/RPC等原创 2015-03-31 16:45:06 · 678 阅读 · 0 评论 -
Hadoop常见问题已经解决方法
<br />1. 启动的时候 ClassNotFound: org.apache.hadoop.util.PlatformName<br /> 暂时没找到原因,偷懒的方法是将 %hadoop_home%/bin/hadoop-config.sh中的(line 190左右) “JAVA_PLATFORM=`CLASSPATH=${CLASSPATH} ${JAVA} -Xmx32m ${HADOOP_JAVA_PLATFORM_OPTS} org.apache.hadoop.util.PlatformName原创 2010-09-09 10:16:00 · 929 阅读 · 0 评论 -
HBase条件查询(多条件查询)
Author:Pirate LeomyBlog: http://blog.csdn.net/pirateleo/myEmail: codeevoship@gmail.com转载请注明出处,谢谢。文中可能涉及到的API:Hadoop/HDFS:http://hadoop.apache.org/common/docs/current/api/HBase:转载 2015-03-06 14:23:18 · 801 阅读 · 0 评论 -
solr和elasticsearch比较
solr的分布式搜索有个比较纠结的问题是:不会自动负载均衡。不过solr4已经提供简单的自动负载均衡,不知道效果如何,有待生产环境考验。elasticsearch是一个比较成熟的分布式搜索引擎,配置也很简单。提供一个elasticsearch大神博客的链接:http://blog.csdn.net/laigood12345/article/category/1113868。原创 2015-03-09 19:35:53 · 3273 阅读 · 0 评论 -
Cloudera Impala官方文档中文翻译-1
http://blog.csdn.net/jiadebin890724/article/details/38822331转载 2015-03-17 11:18:33 · 2731 阅读 · 0 评论 -
利用Kafka, Cloudera Search以及Hue实现实时日志分析系统
cloudera的官方blog中有偏文章,写的非常详细。系统架构图如下:文章的详细地址为: http://blog.cloudera.com/blog/2015/02/how-to-do-real-time-log-analytics-with-apache-kafka-cloudera-search-and-hue/原创 2015-03-17 14:21:10 · 2493 阅读 · 0 评论 -
Hadoop Hive sql语法详解
Hadoop Hive sql语法详解存储,学习,共享 Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分转载 2015-04-08 18:05:21 · 745 阅读 · 0 评论 -
CDH 的Kerberos认证配置
http://xubo8118.blog.163.com/blog/static/1855523322013918103857226/关于:hadoop的安全机制 hadoop kerberos的安全机制 参考Cloudera官方文档:Configuring Hadoop Security in CDH3 一、部署无kerberos认证的转载 2015-04-08 13:39:06 · 1373 阅读 · 0 评论 -
hadoop 单机安装与部署
说明:安装hadoop首先要安装java 然后再安装hadoop安装JAVA。解压cd /usr/local tar -zxvf jdk-7u25-linux-x64.gz 2.配置/etc/profile vi /etc/profile#set java environmentJAVA_HOME=/usr/转载 2017-06-24 14:20:02 · 1561 阅读 · 0 评论 -
超酷算法:日志结构化存储
通常,如果你正在设计一个存储系统,例如一个文件系统或者数据库,你主要问题之一是如何把数据储存到磁盘上。你不仅要注意存储索引数据,也要注意为存储对象分配空间;你不仅要担忧当你想扩大一个现有的模块(例如,附加到文件)会发生什么,注意新旧对象交替时候产生的存储碎片。所有的这些增加了很多复杂度,解决方案往往或者有缺陷或者效率低。日志结构化存储(Log structured storage)是一项可转载 2016-05-10 13:37:55 · 2669 阅读 · 0 评论 -
windows下mongodb安装与使用整理
一、首先安装mongodb1.下载地址:http://www.mongodb.org/downloads2.解压缩到自己想要安装的目录,比如d:\mongodb3.创建文件夹d:\mongodb\data\db、d:\mongodb\data\log,分别用来安装db和日志文件,在log文件夹下创建一个日志文件MongoDB.log,即d:\mongodb\data\log\Mongo转载 2016-04-11 18:16:47 · 391 阅读 · 0 评论 -
VS2010 C++下编译调试MongoDB源码
考虑到mongodb使用了boost库源码,参考mongodb官方文档后,下载编译boost版本是1.42(时间为2010-2-2)或更新版本: boost版本1.42: http://sourceforge.net/projects/boost/files/boost/1.42.0/boost_1_42_0.zip/download转载 2016-04-11 11:21:38 · 769 阅读 · 0 评论 -
Facebook架构解读
从我看过的各种资料,还有与各式人等的交谈中,可以得出Facebook现在的架构是这样的:Web前端用PHP语言编写,然后用HipHop Compiler[1]转换为C++语言,再用g++编译器编写,从而提供高性能的模板与web逻辑执行层。完全依赖静态编译所造成的限制,让Facebook开始启用HipHop Interpreter [2]及HipHop虚拟机,将PHP代码转译为HipHop转载 2016-01-18 17:28:57 · 600 阅读 · 0 评论 -
分布式的数据存储平台 PNUTS
Yahoo!的PNUTS是一个分布式的数据存储平台,它是Yahoo!云计算平台重要的一部分。它的上层产品通常也称为Sherpa。按照官方的 描述,”PNUTS, a massively parallel and geographically distributed database system for Yahoo!’s web applications.” PNUTS显然就深谙CAP之道,考虑到转载 2016-01-16 11:44:36 · 875 阅读 · 0 评论 -
从算法到案例:推荐系统必读的10篇精选技术文章
推荐系统近几年来一直十分火热,目前几乎所有的电子商务系统、社交网络,广告推荐,搜索引擎等等,都不同程度的使用了各种形式的推荐系统。想知道电商如何向你发送广告的?想了解社交网络怎么推荐好友的?想自己搭建一个推荐系统?想了解一些算法或架构从而将自己的推荐系统做得更好?InfoQ为你整理了一系列的有关推荐系统的算法文章,以及主要从电商和社交网络方面选取了一些优秀的案例,来看看这些关于推荐系统的优秀文章吧转载 2015-12-29 18:52:58 · 1277 阅读 · 0 评论 -
2015 Bossie评选:最佳开源大数据工具
Bossie奖是知名英文IT网站InfoWorld针对开源软件颁发的年度奖项,根据这些软件对开源界的贡献,以及在业界的影响力评判获奖对象。本次InfoWorld评选出了22款最佳的开源大数据工具,像Spark、Storm都名列榜单之上。InfoWorld在分布式数据处理、流式数据分析、机器学习以及大规模数据分析领域精选出了2015年的开源工具获奖者,下面我们来简单介绍下这些转载 2015-10-22 16:02:35 · 651 阅读 · 0 评论 -
海量数据处理算法—Bloom Filter
1. Bloom-Filter算法简介 Bloom-Filter,即布隆过滤器,1970年由Bloom中提出。它可以用于检索一个元素是否在一个集合中。 Bloom Filter(BF)是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。它是一个判断元素是否存在集合的快速的概率算法。Bloom Filter有转载 2015-03-06 14:03:04 · 512 阅读 · 0 评论 -
海量数据处理 算法总结
1. Bloom Filter【Bloom Filter】Bloom Filter(BF)是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。它是一个判断元素是否存在集合的快速的概率算法。Bloom Filter有可能会出现错误判断,但不会漏掉判断。也就是Bloom Filter判断元素不再集合,那肯定不在。如果判断元素存在集合中,转载 2015-03-06 14:04:04 · 533 阅读 · 0 评论 -
Hadoop Hive与Hbase关系 整合
用hbase做数据库,但由于hbase没有类sql查询方式,所以操作和计算数据非常不方便,于是整合hive,让hive支撑在hbase数据库层面 的 hql查询.hive也即 做数据仓库1. 基于Hadoop+Hive架构对海量数据进行查询:http://blog.csdn.net/kunshan_shenbin/article/details/71053192. HBase 0.90转载 2015-03-05 11:54:50 · 439 阅读 · 0 评论 -
Hadoop 新 MapReduce 框架 Yarn 详解
Hadoop MapReduceV2(Yarn) 框架简介原 Hadoop MapReduce 框架的问题对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考 Hadoop 官方简介。使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下的原 Ma转载 2014-11-24 15:15:25 · 669 阅读 · 0 评论 -
Impala:新一代开源大数据分析引擎
Impala架构分析Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大卖点就是它的快速。那么Impala如何实现大数据的快转载 2014-11-06 12:18:21 · 658 阅读 · 0 评论 -
Hadoop家族学习路线图
目录(?)[-]Hadoop家族产品Hadoop家族学习路线图主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flum转载 2014-11-05 15:51:45 · 523 阅读 · 0 评论 -
Spark,一种快速数据分析替代方案
虽然 Hadoop 在分布式数据分析方面备受关注,但是仍有一些替代产品提供了优于典型 Hadoop 平台的令人关注的优势。Spark 是一种可扩展的数据分析平台,它整合了内存计算的基元,因此,相对于 Hadoop 的集群存储方法,它在性能方面更具优势。Spark 是在 Scala 语言中实现的,并且利用了该语言,为数据处理提供了独一无二的环境。了解 Spark 的集群计算方法以及它与 Hado转载 2014-11-18 12:02:26 · 986 阅读 · 0 评论 -
Spark与Hadoop计算模型的比较分析
最近很多人都在讨论Spark这个貌似通用的分布式计算模型,国内很多机器学习相关工作者都在研究和使用它。 Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发。 那么Spark和Hadoop有什么不同呢? 1.Spark的中间数据放到内存中,对于迭代运算效率比较高。 Spark aims to extend MapReduce for转载 2014-11-18 10:56:33 · 534 阅读 · 0 评论 -
MongoDB数据库优化:Mongo Database Profiler
在MySQL中,慢查询日志是经常作为我们优化数据库的依据,那在MongoDB中是否有类似的功能呢?答案是肯定的,那就是Mongo Database Profiler.不仅有,而且还有一些比MySQL的Slow Query Log更详细的信息。它就是我们这篇文章的主题。 开启 Profiling 功能 有两种方式可以控制 Profiling 的开关和级别,第一种是直接在启动参数里转载 2014-09-11 13:32:44 · 605 阅读 · 0 评论 -
MongoDB 索引数据类型优化,节省60%内存
最近trunk.ly的工程师通过mongostat发现了大量的page fault,然后通过检查发现,他们的索引已经超出内存限制了(没有keep all index in RAM)。于是他们决定开始减小索引大小,通过测试得出了如下的数据,不同的数据类型的索引大小有2到3倍的差距。虽然能够想像得到,但是直观的数据图可能让我们更深刻的认识到。他们的测试再一次告诉我们:给索引定一个好的数据结转载 2014-09-11 10:55:35 · 1605 阅读 · 0 评论 -
storm简介
场景伴随着信息科技日新月异的发展,信息呈现出爆发式的膨胀,人们获取信息的途径也更加多样、更加便捷,同时对于信息的时效性要求也越来越高。举个搜索场景中的例子,当一个卖家发布了一条宝贝信息时,他希望的当然是这个宝贝马上就可以被卖家搜索出来、点击、购买啦,相反,如果这个宝贝要等到第二天或者更久才可以被搜出来,估计这个大哥就要骂娘了。再举一个推荐的例子,如果用户昨天在淘宝上买了一双袜子,今天想买一转载 2014-06-17 10:28:08 · 441 阅读 · 0 评论 -
流式计算介绍
流式计算介绍MapReduce Hold不住? 本文系统地介绍和分析比较了业界主流的Yahoo! S4、StreamBase和Borealis三种流式计算系统,希望读者能从这些系统的设计中领悟到不同场景下流式计算所要解决的关键问题。背景非实时计算几乎都基于MapReduce计算框架,但MapReduce并不是万能的。对于搜索应用环境中的某些转载 2014-06-17 10:23:31 · 951 阅读 · 0 评论 -
Linkedln技术高管Jay Kreps:Lambda架构剖析
Jay Kreps是Linkedln的一名在线数据架构技术高管,其负责Linkedln开源项目,包括Apache Kafka、Apache Samza、Voldemort以及Azkaban等项目。在日常工作中,Jay Kreps经常被问及有关Lambda架构的问题,为此他结合实际经验和个人体会,把使用Lambda架构的心得总结为以下几点,我们一起来看下:Lambda架构的组成该架构转载 2015-01-27 17:47:18 · 683 阅读 · 0 评论 -
Spark:一个高效的分布式计算系统
http://tech.uc.cn/?p=2116概述什么是SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需转载 2014-12-02 15:23:14 · 688 阅读 · 0 评论 -
zookeeper使用和原理探究(一)
zookeeper介绍zookeeper是一个为分布式应用提供一致性服务的软件,它是开源的Hadoop项目中的一个子项目,并且根据google发表的论文来实现的,接下来我们首先来安装使用下这个软件,然后再来探索下其中比较重要一致性算法。 zookeeper安装和使用zookeeper的安装基本上可以按照 http://hadoop.apache.org/zookeeper/doc转载 2015-03-05 14:32:55 · 320 阅读 · 0 评论 -
Peacock:大规模主题模型及其在腾讯业务中的应用
Peacock:大规模主题模型及其在腾讯业务中的应用2015/03/02分布式计算、机器学习、自然语言处理LDA、Peacock、数据并行、模型并行xueminzhaoPeacock:大规模主题模型及其在腾讯业务中的应用作者:赵学敏 王莉峰 王流斌 孙振龙 严浩 靳志辉 王益摘要如果用户最近搜索了“红酒木瓜汤”,那么应该展示什么样的广告呢?从字面上理解,可能应该转载 2015-03-03 16:46:44 · 1651 阅读 · 0 评论 -
大数据真的很牛B吗?不不不,10分钟让你读懂它
xiaoyu Ma:大数据的讨论,大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择。大数据,首先你要能存的下大数据。转载 2015-03-19 10:38:16 · 2087 阅读 · 2 评论 -
大数据相关工具
Hadoop虽然很多人会把映射与规约工具广义化称为Hadoop,但从客观角度讲、其实只有一小部分核心代码算是真正的Hadoop。多个工作节点负责对保存在本地的数据进行功能执行,而基于Java的代码则对其加以同步。这些工作节点得到的结果随后经过汇总并整理为报告。第一个步骤被称为”映射(即map)”,而第二步骤则被称为”规约(reduce)”。Hadoop为本地数据存储与同步系统提供一转载 2015-03-19 11:06:57 · 659 阅读 · 0 评论 -
广告定向之再营销
广告定向之再营销2014/08/08计算广告学再营销、定向、广告lorylin什么是再营销广告定向再营销是利用用户在互联网上的行为进行精准定向的广告策略。其中的行为可能包含浏览网页、搜索商品、查看感兴趣的商品信息、将有强烈购买意图的商品放入购物车等等,而“再”的意思则是指将用户感兴趣的商品信息以广告的形式再次展现在他面前。一个典型的再营销场景我们来看下面一个例子转载 2015-03-03 16:48:12 · 1050 阅读 · 0 评论