自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 资源 (4)
  • 收藏
  • 关注

转载 关于Hive优化的四种方法总结

问题导读:1、Hive整体架构优化点有哪些?2、如何在MR阶段进行优化?3、Hive在SQL中如何优化?4、Hive框架平台中如何优化?一、整体架构优化现在hive的整体框架如下,计算引擎不仅仅支持Map/Reduce,并且还支持Tez、Spark等。根据不同的计算引擎又可以使用不同的资源调度和存储系统。 整体架构优化点:1、根据不同业务需求

2016-08-31 19:21:25 29486

转载 HBase参数配置及说明(0.94-cdh4.2.1)

HBase参数配置及说明版本:0.94-cdh4.2.1hbase-site.xml配置hbase.tmp.dir本地文件系统tmp目录,一般配置成local模式的设置一下,但是最好还是需要设置一下,因为很多文件都会默认设置成它下面的线上配置property>     name>hbase.tmp.dirname>     value

2016-08-27 20:15:24 861

转载 Spark连接到MySQL并执行查询为什么速度会快?

问题导读:1. Spark为什么能提高Mysql的查询速度?2. 如何运行SQL in Spark?3. SparkSQL如何将查询推送到MySQL?4. 如何使用Spark缓存查询数据?5. 如何使用 Spark 和 Percona XtraDB Cluster?6. Spark表分区时需要注意的事项?7. Spark表现不好的时候?在这篇文章中我们将讨论

2016-08-27 19:14:52 7101 2

转载 四两拨千斤:借助Spark GraphX将QQ千亿关系链计算提速20倍

四两拨千斤:借助Spark GraphX将QQ千亿关系链计算提速20倍2016-08-06 13:15    来源:PPV课大数据腾讯QQ有着国内最大的关系链,而共同好友数,属于社交网络分析的基本指标之一,是其它复杂指标的基础。借助Spark GraphX,我们用寥寥100行核心代码,在高配置的TDW-Spark集群上,只花了2个半小时,便完成了原来需要2天的全量共

2016-08-25 08:48:55 840

转载 如何解释spark mllib中ALS算法的原理?

如何解释spark mllib中ALS算法的原理?ALS交替最小二乘法的协同过滤算法,其原理是什么,算法的思想是怎样的?找了好久的资料都是一大堆专业名词和公式看着比较费力,有没有大大能用比较通俗的语言描述一下ALS算法添加评论 分享按投票排序按时间排序2 个回答小黑臭打字的5

2016-08-22 08:49:01 2130

转载 Spark Streaming容错的改进和零数据丢失

Spark Streaming容错的改进和零数据丢失发表于2015-03-04 15:28| 4850次阅读| 来源Databricks| 2 条评论| 作者Tathagata DasSpark开发者大数据数据库摘要:实时流处理系统必须要能在24/7时间内工作,因此它需要具备从各种系统故障中恢复过来的能力。最开始,Spark Streaming就支持从drive

2016-08-13 16:35:44 475

转载 搭建企业级高可用HBase

搭建企业级高可用HBase标签: hadoopCDHhbase大数据高可用2016-08-10 17:19 3081人阅读 评论(5) 收藏 举报 分类:大数据(6) 版权声明:本文为博主原创文章,未经博主允许不得转载。目录(?)[+]1 HBase介绍HBase是一个分布式的、面向列的开源数据库,

2016-08-13 16:26:08 3595

转载 用机器学习计算工作技能匹配度

本文使用Word2vec结合K-Means聚类,Word2vec结合层次聚类,和隐含狄利克雷分布三种方法描述工作技能的相关性,在评估整体关联性方面它们都是有效的,最终结果在很大程度上取决于实际应用场景。此项目的成员包括Brett Amdur,Christopher Redino和Amy (Yujing) Ma。他们毕业与今年1月11日至4月1日举办的为期十二周的纽约数据科学全职训练

2016-08-13 16:22:33 3261

转载 Cloudera Manager、CDH零基础入门、线路指导

Cloudera Manager、CDH零基础入门、线路指导2016-02-24 08:20 172人阅读 评论(0) 收藏 举报 分类:大数据(10) Cloudera Manager、CDH零基础入门、线路指导出处:http://www.aboutyun.com/thread-9219-1-1.html问题导读:1.什么是cl

2016-08-12 09:24:45 3080

转载 Centos磁盘管理 进阶篇

创建分区相关命令:命令格式:fdisk +设备类型 最多只能创建15个分区12#fdisk -l ------//可列出所有磁盘的相关分区信息#fdisk -l /dev/sda----//查看sda磁盘的相关分区信息图1123456

2016-08-09 20:41:51 2176

转载 Hbase入门之:原理、基本概念与架构

Hbase入门之:原理、基本概念与架构标签: HadoopHbase2015-02-13 11:13 414人阅读 评论(0) 收藏 举报 分类:Hbase(7) 目录(?)[+]概述HBase是一个构建在HDFS上的分布式列存储系统;HBase是基于Google BigTable模型开发的,典

2016-08-05 08:48:55 584

转载 电商异步消息系统的实践

声明:本文为《从程序员》7月期原创投稿文章,未经许可禁止任何形式的转载。 作者:王晓宇,小米网平台研发部软件研发工程师。2015年入职小米,主要负责电商后端仓储物流相关的业务系统开发。曾在西门子中国研究院,从事软件研发工作,拥有两年以上的软件开发相关经验。曾使用过的编程语言主要有Java与PHP,拥有多年的服务器开发经验以及MySQL优化经验,对电商相关业务与系统架构具有一定的了解以及自己的见

2016-08-04 13:13:21 3340

转载 Airbnb开源ReAir工具,提供PB级数据仓库的迁移和备份

Airbnb开源ReAir工具,提供PB级数据仓库的迁移和备份2016-08-04 侠天 神机喵算摘要:本篇讲述Airbnb的开源ReAir工具,提供PB级数据仓库的迁移和备份。Airbnb大数据平台架构成为Airbnb公司提升产品决策的关键部分。其Hive数据仓库从2013年中旬的350 TB暴增到11 PB (2015年末统计的数据)。随着公司的成长

2016-08-04 13:08:26 1423 1

原创 HBase的备份和还原

HBase的备份和还原2016-07-06 17:11:01管理员阅读(274)1)HBase热备份的方法 (2)HBase热备的还原 (3)HBase冷备份 (4)HBase冷备的还原一 (1)启动Hbase ./start-hbase.sh(2)创建表 hbase shell create ‘test’,{NAME=>’CF’

2016-08-03 17:31:00 4581

转载 HDFS数据迁移解决方案之DistCp工具的巧妙使用分析

HDFS数据迁移解决方案之DistCp工具的巧妙使用分析2016-04-06      0 个评论    来源:走在前往架构师的路上  收藏    我要投稿前言在当今每日信息量巨大的社会中,源源不断的数据需要被安全的存储.等到数据的规模越来越大的时候,也许瓶颈就来了,没有存储空间了.这时候怎么办,你也许会说,加机器解决,显然这是一个很简单直接但是又显得有

2016-08-03 14:48:11 3087

转载 HDFS缓存机制

HDFS缓存机制 Androidlushangderen  2016-03-13  267 查看  0评论 公开 原文 添加收藏    前言缓存,英文单词译为Cache,缓存可以帮助我们干很多事,当然最直接的体会就是可以减少不必要的数据请求和操作.同样在HDFS中,也存在着一套完整的缓存机制,但可能使用了解此机制的人并不多,因为这个配置项平时大家比较

2016-08-03 11:16:30 1475

转载 hadoop 2.2.0 关于 fsimage & edit log 的相关配置

hadoop 2.2.0 关于 fsimage & edit log 的相关配置时间 2014-04-16 14:11:08  CSDN博客原文  http://blog.csdn.net/knowledgeaaa/article/details/23842099主题 Hadoop在运行hadoop 2.2.0过程中,发现${dfs.namenode.check

2016-08-02 13:15:00 410

2007年下半年系统分析师下午试卷Ⅱ.doc

2007年下半年系统分析师下午试卷Ⅱ.doc

2007-11-21

2007年下半年系统分析师下午试卷Ⅰ.doc

2007年下半年系统分析师下午试卷Ⅰ.doc

2007-11-21

2007年下半年系统分析师上午试卷.doc

2007年下半年系统分析师上午试卷.doc

2007-11-21

2007年下半年系统分析师考试试题分析.doc

2007年下半年系统分析师考试试题分析.doc

2007-11-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除