- 博客(13)
- 资源 (10)
- 收藏
- 关注
转载 hive语句优化-通过groupby实现distinct
同事写了个hive的sql语句,执行效率特别慢,跑了一个多小时程序只是map完了,reduce进行到20%。该Hive语句如下:select count(distinct ip) from (select ip as ip from comprehensive.f_client_boot_daily where year="2013" and month="10" uni
2016-12-29 14:16:11 1084
转载 Hive函数大全
一、关系运算:1. 等值比较: = 语法:A=B 操作类型:所有基本类型 描述:如果表达式A与表达式B相等,则为TRUE;否则为FALSE 举例: Hive>select 1 from lxw_dual where 1=1; 12. 不等值比较: 语
2016-12-28 19:18:39 467
转载 朴素贝叶斯算法
朴素贝叶斯(Naive Bayes,以下简称NB)算法是基于概率学习的一种分类方法,朴素贝叶斯利用先验信息来预测将来事件发生的概率。举个例子,就好比古时大夫给病人看病,他需要“望闻问切”,才能对病人的病情做出诊断。这里“望闻问切”是为了获取病人的病情即特征,然后他会对比该病情特征和以往他所见过的病情特征做比较,推断具体病症然后对症下药,这里的推断从某种程度上就用到了贝叶斯算法。好了,下面进入主题,
2016-12-06 16:36:38 675
转载 Linux查找占用的端口,并杀死进程
我要使用4040端口,但是被其他的程序占用了1. 查找占用的程序[html] view plain copy netstat -apn | grep 4040 最后一项显示的是pid和对应的名称2. 杀掉对应的进程,彻底杀死进程[html] view
2016-12-06 16:06:52 2633 1
转载 Spark性能优化总结
近期优化了一个spark流量统计的程序,此程序跑5分钟小数据量日志不到5分钟,但相同的程序跑一天大数据量日志各种失败。经优化,使用160 vcores + 480G memory,一天的日志可在2.5小时内跑完,下面对一些优化的思路方法进行梳理。优化的目标保证大数据量下任务运行成功降低资源消耗提高计算性能三个目标优先级依次递减,首要解决的是程序能够跑通大数据量,资源性能尽量进行
2016-12-02 10:07:41 508
转载 Hadoop学习笔记:MapReduce框架详解
原文出处: 夏天的森林 开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关,我开始学习某一套技术总是想着这套技术到底能干什么,只有当我真正理解了这套技术解决了什么问题时候,我后续的学习就能逐步的加快,而
2016-12-01 14:44:37 318
转载 spark基本概念
我们知道Spark总是以集群的方式运行的,Standalone的部署方式是集群方式中最为精简的一种(另外的是Mesos和Yarn)。Standalone模式中,资源调度是自己实现的,是MS架构的集群模式,故存在单点故障问题。下面提出几个问题并解决:1、Standalone部署方式下包含哪些节点?由不同级别的三个节点组成,分别是Master主控节点、Worker工作节点、客户端节点;
2016-12-01 14:42:40 264
转载 Spark RDD 核心总结
摘要: 1.RDD的五大属性 1.1 partitions(分区) 1.2 partitioner(分区方法) 1.3 dependencies(依赖关系) 1.4 compute(获取分区迭代列表) 1.5 preferedLocations(距离近的节点列表) 2.RDD实现类举例 2.1 MapPartit
2016-12-01 14:35:16 490
转载 Spark Shuffle原理、Shuffle操作问题解决和参数调优
摘要: 1 shuffle原理 1.1 mapreduce的shuffle原理 1.1.1 map task端操作 1.1.2 reduce task端操作 1.2 spark现在的SortShuffleManager 2 Shuffle操作问题解决 2.1 数据倾斜原理 2.2 数据倾斜问题发现与解决
2016-12-01 14:33:48 5575
转载 Spark的持久化简记
摘要: 1.spark 提供的持久化方法 2.Spark的持久化级别 3.如何选择一种最合适的持久化策略内容:1.spark 提供的持久化方法如果要对一个RDD进行持久化,只要对这个RDD调用cache()和persist()即可。在第二次计算RDD是就不用再重新计算了,从而提高spark作业效率对于persist()方法而言,我们可以根据不同的业务场
2016-12-01 14:31:43 392
转载 Spark算子选择策略
摘要 1.使用reduceByKey/aggregateByKey替代groupByKey 2.使用mapPartitions替代普通map 3.使用foreachPartitions替代foreach 4.使用filter之后进行coalesce操作 5.使用repartitionAndSortWithinPartitions替代repartiti
2016-12-01 14:28:43 631
原创 spark submit参数调优
摘要 1.num-executors 2.executor-memory 3.executor-cores 4.driver-memory 5.spark.default.parallelism 6.spark.storage.memoryFraction 7.spark.shuffle.memoryFraction 8.total-ex
2016-12-01 14:27:23 15772 5
原创 错误汇总
1.zookeeper启动报错错误日志启动zookeeper报错信息如下:[Bash shell] [color=rgb(51, 102, 153) !important]纯文本查看 [color=rgb(51, 102, 153) !important]复制代码[color=white !important][color=white !important]?
2016-12-01 09:26:01 1089
文本分类语料库
2016-10-25
Scala编程(完整中文版)
2016-09-06
redis设计与实现(第二版)
2016-09-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人