2016年12月_chenjieit619

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载 hive语句优化-通过groupby实现distinct

同事写了个hive的sql语句，执行效率特别慢，跑了一个多小时程序只是map完了，reduce进行到20%。该Hive语句如下：select count(distinct ip) from (select ip as ip from comprehensive.f_client_boot_daily where year="2013" and month="10" uni

2016-12-29 14:16:11 1066

转载 Hive函数大全

一、关系运算：1. 等值比较: = 语法：A=B 操作类型：所有基本类型描述:如果表达式A与表达式B相等，则为TRUE；否则为FALSE 举例： Hive>select 1 from lxw_dual where 1=1; 12. 不等值比较: 语

2016-12-28 19:18:39 440

朴素贝叶斯(Naive Bayes,以下简称NB)算法是基于概率学习的一种分类方法，朴素贝叶斯利用先验信息来预测将来事件发生的概率。举个例子，就好比古时大夫给病人看病，他需要“望闻问切”，才能对病人的病情做出诊断。这里“望闻问切”是为了获取病人的病情即特征，然后他会对比该病情特征和以往他所见过的病情特征做比较，推断具体病症然后对症下药，这里的推断从某种程度上就用到了贝叶斯算法。好了，下面进入主题，

2016-12-06 16:36:38 646

转载 Linux查找占用的端口，并杀死进程

我要使用4040端口，但是被其他的程序占用了1. 查找占用的程序[html] view plain copy netstat -apn | grep 4040 最后一项显示的是pid和对应的名称2. 杀掉对应的进程，彻底杀死进程[html] view

2016-12-06 16:06:52 2611 1

转载 Spark性能优化总结

近期优化了一个spark流量统计的程序，此程序跑5分钟小数据量日志不到5分钟，但相同的程序跑一天大数据量日志各种失败。经优化，使用160 vcores + 480G memory，一天的日志可在2.5小时内跑完，下面对一些优化的思路方法进行梳理。优化的目标保证大数据量下任务运行成功降低资源消耗提高计算性能三个目标优先级依次递减，首要解决的是程序能够跑通大数据量，资源性能尽量进行

2016-12-02 10:07:41 491

转载 Hadoop学习笔记：MapReduce框架详解

原文出处：夏天的森林开始聊mapreduce，mapreduce是hadoop的计算框架，我学hadoop是从hive开始入手，再到hdfs，当我学习hdfs时候，就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关，我开始学习某一套技术总是想着这套技术到底能干什么，只有当我真正理解了这套技术解决了什么问题时候，我后续的学习就能逐步的加快，而

2016-12-01 14:44:37 302

转载 spark基本概念

我们知道Spark总是以集群的方式运行的，Standalone的部署方式是集群方式中最为精简的一种（另外的是Mesos和Yarn）。Standalone模式中，资源调度是自己实现的，是MS架构的集群模式，故存在单点故障问题。下面提出几个问题并解决：1、Standalone部署方式下包含哪些节点？由不同级别的三个节点组成，分别是Master主控节点、Worker工作节点、客户端节点；

2016-12-01 14:42:40 254

转载 Spark RDD 核心总结

摘要：　　1.RDD的五大属性　　　　1.1 partitions(分区)　　　　1.2 partitioner(分区方法)　　　　1.3 dependencies(依赖关系)　　　　1.4 compute(获取分区迭代列表)　　　　1.5 preferedLocations(距离近的节点列表) 　　2.RDD实现类举例　　　　2.1 MapPartit

2016-12-01 14:35:16 471

转载 Spark Shuffle原理、Shuffle操作问题解决和参数调优

摘要： 1 shuffle原理　　1.1 mapreduce的shuffle原理　　　　1.1.1 map task端操作　　　　1.1.2 reduce task端操作　　 1.2 spark现在的SortShuffleManager 2 Shuffle操作问题解决　　 2.1 数据倾斜原理 2.2 数据倾斜问题发现与解决

2016-12-01 14:33:48 5541

转载 Spark的持久化简记

摘要：　　1.spark 提供的持久化方法　　2.Spark的持久化级别　　3.如何选择一种最合适的持久化策略内容：1.spark 提供的持久化方法如果要对一个RDD进行持久化，只要对这个RDD调用cache()和persist()即可。在第二次计算RDD是就不用再重新计算了，从而提高spark作业效率对于persist()方法而言，我们可以根据不同的业务场

2016-12-01 14:31:43 369

转载 Spark算子选择策略

摘要　 1.使用reduceByKey/aggregateByKey替代groupByKey　　2.使用mapPartitions替代普通map　　3.使用foreachPartitions替代foreach　　4.使用filter之后进行coalesce操作　　5.使用repartitionAndSortWithinPartitions替代repartiti

2016-12-01 14:28:43 618

原创 spark submit参数调优

摘要　　1.num-executors　　2.executor-memory　　3.executor-cores　　4.driver-memory　　5.spark.default.parallelism　　6.spark.storage.memoryFraction　　7.spark.shuffle.memoryFraction　　8.total-ex

2016-12-01 14:27:23 15690 5

原创错误汇总

1.zookeeper启动报错错误日志启动zookeeper报错信息如下：[Bash shell] [color=rgb(51, 102, 153) !important]纯文本查看 [color=rgb(51, 102, 153) !important]复制代码[color=white !important][color=white !important]?

2016-12-01 09:26:01 1033

文本分类语料库

Spark MLlib实现的中文文本分类–Naive Bayes。训练模型，语料非常重要，我这里使用的是搜狗提供的分类语料库，很早之前的了，这里只作为学习测试使用。

2016-10-25

搜狗实验室文本分类语料库

搜狗实验室文本分类语料库。可用于进行文本开发等相应实验练习

2016-10-25

redis设计与实现-(第二版)

熟悉redis原理，了解redis设计架构

2016-09-06

Scala编程(完整版)

学习scala编程利器！适合初学者。

2016-09-06

Scala for the Impatient

《快学Scala》的英文版，适合初学者学习scala语言，快速适应scala编程开发。

2016-09-06

Scala编程(完整中文版)

2016-09-06

redis设计与实现(第二版)

2016-09-06

Scala for the Impatient 英文版

2016-09-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

chenjieit619的博客

转载 hive语句优化-通过groupby实现distinct

转载 Hive函数大全

转载朴素贝叶斯算法

转载 Linux查找占用的端口，并杀死进程

转载 Spark性能优化总结

转载 Hadoop学习笔记：MapReduce框架详解

转载 spark基本概念

转载 Spark RDD 核心总结

转载 Spark Shuffle原理、Shuffle操作问题解决和参数调优

转载 Spark的持久化简记

转载 Spark算子选择策略

原创 spark submit参数调优

原创错误汇总

文本分类语料库

搜狗实验室文本分类语料库

redis设计与实现-(第二版)

Scala编程(完整版)

Scala for the Impatient

Scala编程(完整中文版)

redis设计与实现(第二版)

Scala for the Impatient 英文版

空空如也

文本分类语料库

搜狗实验室 文本分类语料库

redis设计与实现-(第二版)

Scala编程(完整版)

Scala for the Impatient

Scala编程(完整中文版)

redis设计与实现(第二版)

Scala for the Impatient 英文版

空空如也

搜狗实验室文本分类语料库