自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 资源 (4)
  • 收藏
  • 关注

转载 关于Hive优化的四种方法总结

问题导读: 1、Hive整体架构优化点有哪些? 2、如何在MR阶段进行优化? 3、Hive在SQL中如何优化? 4、Hive框架平台中如何优化? 一、整体架构优化 现在hive的整体框架如下,计算引擎不仅仅支持Map/Reduce,并且还支持Tez、Spark等。根据不同的计算引擎又可以使用不同的资源调度和存储系统。   整体架构优化点: 1、根据不同业务需求

2016-08-31 19:21:25 28985

转载 HBase参数配置及说明(0.94-cdh4.2.1)

HBase参数配置及说明 版本:0.94-cdh4.2.1 hbase-site.xml配置 hbase.tmp.dir 本地文件系统tmp目录,一般配置成local模式的设置一下,但是最好还是需要设置一下,因为很多文件都会默认设置成它下面的线上配置 property>      name>hbase.tmp.dirname>      value

2016-08-27 20:15:24 791

转载 Spark连接到MySQL并执行查询为什么速度会快?

问题导读: 1. Spark为什么能提高Mysql的查询速度? 2. 如何运行SQL in Spark? 3. SparkSQL如何将查询推送到MySQL? 4. 如何使用Spark缓存查询数据?5. 如何使用 Spark 和 Percona XtraDB Cluster? 6. Spark表分区时需要注意的事项? 7. Spark表现不好的时候? 在这篇文章中我们将讨论

2016-08-27 19:14:52 6883 2

转载 四两拨千斤:借助Spark GraphX将QQ千亿关系链计算提速20倍

四两拨千斤:借助Spark GraphX将QQ千亿关系链计算提速20倍 2016-08-06 13:15    来源:PPV课大数据 腾讯QQ有着国内最大的关系链,而共同好友数,属于社交网络分析的基本指标之一,是其它复杂指标的基础。借助Spark GraphX,我们用寥寥100行核心代码,在高配置的TDW-Spark集群上,只花了2个半小时,便完成了原来需要2天的全量共

2016-08-25 08:48:55 726

转载 如何解释spark mllib中ALS算法的原理?

如何解释spark mllib中ALS算法的原理? ALS交替最小二乘法的协同过滤算法,其原理是什么,算法的思想是怎样的?找了好久的资料都是一大堆专业名词和公式看着比较费力,有没有大大能用比较通俗的语言描述一下ALS算法 添加评论  分享 按投票排序按时间排序 2 个回答 小黑臭打字的 5

2016-08-22 08:49:01 2051

转载 Spark Streaming容错的改进和零数据丢失

Spark Streaming容错的改进和零数据丢失 发表于2015-03-04 15:28| 4850次阅读| 来源Databricks| 2 条评论| 作者Tathagata Das Spark开发者大数据数据库 摘要:实时流处理系统必须要能在24/7时间内工作,因此它需要具备从各种系统故障中恢复过来的能力。最开始,Spark Streaming就支持从drive

2016-08-13 16:35:44 417

转载 搭建企业级高可用HBase

搭建企业级高可用HBase 标签: hadoopCDHhbase大数据高可用 2016-08-10 17:19 3081人阅读 评论(5) 收藏 举报  分类: 大数据(6)  版权声明:本文为博主原创文章,未经博主允许不得转载。 目录(?)[+] 1 HBase介绍 HBase是一个分布式的、面向列的开源数据库,

2016-08-13 16:26:08 3502

转载 用机器学习计算工作技能匹配度

本文使用Word2vec结合K-Means聚类,Word2vec结合层次聚类,和隐含狄利克雷分布三种方法描述工作技能的相关性,在评估整体关联性方面它们都是有效的,最终结果在很大程度上取决于实际应用场景。 此项目的成员包括Brett Amdur,Christopher Redino和Amy (Yujing) Ma。他们毕业与今年1月11日至4月1日举办的为期十二周的纽约数据科学全职训练

2016-08-13 16:22:33 3007

转载 Cloudera Manager、CDH零基础入门、线路指导

Cloudera Manager、CDH零基础入门、线路指导 2016-02-24 08:20 172人阅读 评论(0) 收藏 举报  分类: 大数据(10)  Cloudera Manager、CDH零基础入门、线路指导 出处:http://www.aboutyun.com/thread-9219-1-1.html 问题导读: 1.什么是cl

2016-08-12 09:24:45 2972

转载 Centos磁盘管理 进阶篇

创建分区相关命令: 命令格式:fdisk +设备类型 最多只能创建15个分区 1 2 #fdisk -l ------//可列出所有磁盘的相关分区信息 #fdisk -l /dev/sda----//查看sda磁盘的相关分区信息 图1 1 2 3 4 5 6

2016-08-09 20:41:51 2111

转载 Hbase入门之:原理、基本概念与架构

Hbase入门之:原理、基本概念与架构 标签: HadoopHbase 2015-02-13 11:13 414人阅读 评论(0) 收藏 举报  分类: Hbase(7)  目录(?)[+] 概述 HBase是一个构建在HDFS上的分布式列存储系统; HBase是基于Google BigTable模型开发的,典

2016-08-05 08:48:55 533

转载 电商异步消息系统的实践

声明:本文为《从程序员》7月期原创投稿文章,未经许可禁止任何形式的转载。  作者:王晓宇,小米网平台研发部软件研发工程师。2015年入职小米,主要负责电商后端仓储物流相关的业务系统开发。曾在西门子中国研究院,从事软件研发工作,拥有两年以上的软件开发相关经验。曾使用过的编程语言主要有Java与PHP,拥有多年的服务器开发经验以及MySQL优化经验,对电商相关业务与系统架构具有一定的了解以及自己的见

2016-08-04 13:13:21 3269

转载 Airbnb开源ReAir工具,提供PB级数据仓库的迁移和备份

Airbnb开源ReAir工具,提供PB级数据仓库的迁移和备份 2016-08-04 侠天 神机喵算 摘要:本篇讲述Airbnb的开源ReAir工具,提供PB级数据仓库的迁移和备份。 Airbnb大数据平台架构成为Airbnb公司提升产品决策的关键部分。其Hive数据仓库从2013年中旬的350 TB暴增到11 PB (2015年末统计的数据)。随着公司的成长

2016-08-04 13:08:26 1256 1

原创 HBase的备份和还原

HBase的备份和还原 2016-07-06 17:11:01管理员阅读(274) 1)HBase热备份的方法  (2)HBase热备的还原  (3)HBase冷备份  (4)HBase冷备的还原 一  (1)启动Hbase  ./start-hbase.sh (2)创建表  hbase shell  create ‘test’,{NAME=>’CF’

2016-08-03 17:31:00 4446

转载 HDFS数据迁移解决方案之DistCp工具的巧妙使用分析

HDFS数据迁移解决方案之DistCp工具的巧妙使用分析 2016-04-06      0 个评论    来源:走在前往架构师的路上   收藏    我要投稿 前言 在当今每日信息量巨大的社会中,源源不断的数据需要被安全的存储.等到数据的规模越来越大的时候,也许瓶颈就来了,没有存储空间了.这时候怎么办,你也许会说,加机器解决,显然这是一个很简单直接但是又显得有

2016-08-03 14:48:11 2798

转载 HDFS缓存机制

HDFS缓存机制  Androidlushangderen  2016-03-13  267 查看  0评论 公开 原文  添加收藏      前言 缓存,英文单词译为Cache,缓存可以帮助我们干很多事,当然最直接的体会就是可以减少不必要的数据请求和操作.同样在HDFS中,也存在着一套完整的缓存机制,但可能使用了解此机制的人并不多,因为这个配置项平时大家比较

2016-08-03 11:16:30 1389

转载 hadoop 2.2.0 关于 fsimage & edit log 的相关配置

hadoop 2.2.0 关于 fsimage & edit log 的相关配置 时间 2014-04-16 14:11:08  CSDN博客 原文  http://blog.csdn.net/knowledgeaaa/article/details/23842099 主题 Hadoop 在运行hadoop 2.2.0过程中,发现${dfs.namenode.check

2016-08-02 13:15:00 337

2007年下半年系统分析师下午试卷Ⅱ.doc

2007年下半年系统分析师下午试卷Ⅱ.doc

2007-11-21

2007年下半年系统分析师下午试卷Ⅰ.doc

2007年下半年系统分析师下午试卷Ⅰ.doc

2007-11-21

2007年下半年系统分析师上午试卷.doc

2007年下半年系统分析师上午试卷.doc

2007-11-21

2007年下半年系统分析师考试试题分析.doc

2007年下半年系统分析师考试试题分析.doc

2007-11-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除