- 博客(17)
- 资源 (4)
- 收藏
- 关注
转载 关于Hive优化的四种方法总结
问题导读: 1、Hive整体架构优化点有哪些? 2、如何在MR阶段进行优化? 3、Hive在SQL中如何优化? 4、Hive框架平台中如何优化? 一、整体架构优化 现在hive的整体框架如下,计算引擎不仅仅支持Map/Reduce,并且还支持Tez、Spark等。根据不同的计算引擎又可以使用不同的资源调度和存储系统。 整体架构优化点: 1、根据不同业务需求
2016-08-31 19:21:25
28985
转载 HBase参数配置及说明(0.94-cdh4.2.1)
HBase参数配置及说明 版本:0.94-cdh4.2.1 hbase-site.xml配置 hbase.tmp.dir 本地文件系统tmp目录,一般配置成local模式的设置一下,但是最好还是需要设置一下,因为很多文件都会默认设置成它下面的线上配置 property> name>hbase.tmp.dirname> value
2016-08-27 20:15:24
791
转载 Spark连接到MySQL并执行查询为什么速度会快?
问题导读: 1. Spark为什么能提高Mysql的查询速度? 2. 如何运行SQL in Spark? 3. SparkSQL如何将查询推送到MySQL? 4. 如何使用Spark缓存查询数据?5. 如何使用 Spark 和 Percona XtraDB Cluster? 6. Spark表分区时需要注意的事项? 7. Spark表现不好的时候? 在这篇文章中我们将讨论
2016-08-27 19:14:52
6883
2
转载 四两拨千斤:借助Spark GraphX将QQ千亿关系链计算提速20倍
四两拨千斤:借助Spark GraphX将QQ千亿关系链计算提速20倍 2016-08-06 13:15 来源:PPV课大数据 腾讯QQ有着国内最大的关系链,而共同好友数,属于社交网络分析的基本指标之一,是其它复杂指标的基础。借助Spark GraphX,我们用寥寥100行核心代码,在高配置的TDW-Spark集群上,只花了2个半小时,便完成了原来需要2天的全量共
2016-08-25 08:48:55
726
转载 如何解释spark mllib中ALS算法的原理?
如何解释spark mllib中ALS算法的原理? ALS交替最小二乘法的协同过滤算法,其原理是什么,算法的思想是怎样的?找了好久的资料都是一大堆专业名词和公式看着比较费力,有没有大大能用比较通俗的语言描述一下ALS算法 添加评论 分享 按投票排序按时间排序 2 个回答 小黑臭打字的 5
2016-08-22 08:49:01
2051
转载 Spark Streaming容错的改进和零数据丢失
Spark Streaming容错的改进和零数据丢失 发表于2015-03-04 15:28| 4850次阅读| 来源Databricks| 2 条评论| 作者Tathagata Das Spark开发者大数据数据库 摘要:实时流处理系统必须要能在24/7时间内工作,因此它需要具备从各种系统故障中恢复过来的能力。最开始,Spark Streaming就支持从drive
2016-08-13 16:35:44
417
转载 搭建企业级高可用HBase
搭建企业级高可用HBase 标签: hadoopCDHhbase大数据高可用 2016-08-10 17:19 3081人阅读 评论(5) 收藏 举报 分类: 大数据(6) 版权声明:本文为博主原创文章,未经博主允许不得转载。 目录(?)[+] 1 HBase介绍 HBase是一个分布式的、面向列的开源数据库,
2016-08-13 16:26:08
3502
转载 用机器学习计算工作技能匹配度
本文使用Word2vec结合K-Means聚类,Word2vec结合层次聚类,和隐含狄利克雷分布三种方法描述工作技能的相关性,在评估整体关联性方面它们都是有效的,最终结果在很大程度上取决于实际应用场景。 此项目的成员包括Brett Amdur,Christopher Redino和Amy (Yujing) Ma。他们毕业与今年1月11日至4月1日举办的为期十二周的纽约数据科学全职训练
2016-08-13 16:22:33
3007
转载 Cloudera Manager、CDH零基础入门、线路指导
Cloudera Manager、CDH零基础入门、线路指导 2016-02-24 08:20 172人阅读 评论(0) 收藏 举报 分类: 大数据(10) Cloudera Manager、CDH零基础入门、线路指导 出处:http://www.aboutyun.com/thread-9219-1-1.html 问题导读: 1.什么是cl
2016-08-12 09:24:45
2972
转载 Centos磁盘管理 进阶篇
创建分区相关命令: 命令格式:fdisk +设备类型 最多只能创建15个分区 1 2 #fdisk -l ------//可列出所有磁盘的相关分区信息 #fdisk -l /dev/sda----//查看sda磁盘的相关分区信息 图1 1 2 3 4 5 6
2016-08-09 20:41:51
2111
转载 Hbase入门之:原理、基本概念与架构
Hbase入门之:原理、基本概念与架构 标签: HadoopHbase 2015-02-13 11:13 414人阅读 评论(0) 收藏 举报 分类: Hbase(7) 目录(?)[+] 概述 HBase是一个构建在HDFS上的分布式列存储系统; HBase是基于Google BigTable模型开发的,典
2016-08-05 08:48:55
533
转载 电商异步消息系统的实践
声明:本文为《从程序员》7月期原创投稿文章,未经许可禁止任何形式的转载。 作者:王晓宇,小米网平台研发部软件研发工程师。2015年入职小米,主要负责电商后端仓储物流相关的业务系统开发。曾在西门子中国研究院,从事软件研发工作,拥有两年以上的软件开发相关经验。曾使用过的编程语言主要有Java与PHP,拥有多年的服务器开发经验以及MySQL优化经验,对电商相关业务与系统架构具有一定的了解以及自己的见
2016-08-04 13:13:21
3269
转载 Airbnb开源ReAir工具,提供PB级数据仓库的迁移和备份
Airbnb开源ReAir工具,提供PB级数据仓库的迁移和备份 2016-08-04 侠天 神机喵算 摘要:本篇讲述Airbnb的开源ReAir工具,提供PB级数据仓库的迁移和备份。 Airbnb大数据平台架构成为Airbnb公司提升产品决策的关键部分。其Hive数据仓库从2013年中旬的350 TB暴增到11 PB (2015年末统计的数据)。随着公司的成长
2016-08-04 13:08:26
1256
1
原创 HBase的备份和还原
HBase的备份和还原 2016-07-06 17:11:01管理员阅读(274) 1)HBase热备份的方法 (2)HBase热备的还原 (3)HBase冷备份 (4)HBase冷备的还原 一 (1)启动Hbase ./start-hbase.sh (2)创建表 hbase shell create ‘test’,{NAME=>’CF’
2016-08-03 17:31:00
4446
转载 HDFS数据迁移解决方案之DistCp工具的巧妙使用分析
HDFS数据迁移解决方案之DistCp工具的巧妙使用分析 2016-04-06 0 个评论 来源:走在前往架构师的路上 收藏 我要投稿 前言 在当今每日信息量巨大的社会中,源源不断的数据需要被安全的存储.等到数据的规模越来越大的时候,也许瓶颈就来了,没有存储空间了.这时候怎么办,你也许会说,加机器解决,显然这是一个很简单直接但是又显得有
2016-08-03 14:48:11
2798
转载 HDFS缓存机制
HDFS缓存机制 Androidlushangderen 2016-03-13 267 查看 0评论 公开 原文 添加收藏 前言 缓存,英文单词译为Cache,缓存可以帮助我们干很多事,当然最直接的体会就是可以减少不必要的数据请求和操作.同样在HDFS中,也存在着一套完整的缓存机制,但可能使用了解此机制的人并不多,因为这个配置项平时大家比较
2016-08-03 11:16:30
1389
转载 hadoop 2.2.0 关于 fsimage & edit log 的相关配置
hadoop 2.2.0 关于 fsimage & edit log 的相关配置 时间 2014-04-16 14:11:08 CSDN博客 原文 http://blog.csdn.net/knowledgeaaa/article/details/23842099 主题 Hadoop 在运行hadoop 2.2.0过程中,发现${dfs.namenode.check
2016-08-02 13:15:00
337
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人