- 博客(8)
- 资源 (4)
- 收藏
- 关注
原创 Spark map与flatmap区别
总结:- Spark 中 map函数会对每一条输入进行指定的操作,然后为每一条输入返回一个对象;- 而flatMap函数则是两个操作的集合——正是“先映射后扁平化”: 操作1:同map函数一样:对每一条输入进行指定的操作,然后为每一条输入返回一个对象 操作2:最后将所有对象合并为一个对象 val rdd1 = sc.parallelize(Seq(("one tw...
2018-12-06 09:45:05 170
原创 Linux常用命令
l 查看Linux系统版本的命令:1. cat /etc/issue 2. lsb_release-a (需要yum install redhat-lsb -y)3. 查看Linux内核版本命令: 1. cat /proc/version 2. uname -a l 查看cpu信息# 查看物理CPU个数cat /proc/cpuinfo |...
2018-04-19 19:30:36 210
原创 Kmeans聚类算法
(该方法不适于发现非凸面形状的簇或大小差别很大的簇。缺点是K值难确定) k均值算法的计算过程: 1、从D中随机取k个元素,作为k个簇的各自的中心。 2、分别计算剩下的元素到k个簇中心的相异度,将这些元素分别划归到相异度最低的簇。 3、根据聚类结果,重新计算k个簇各自的中心,计算方法是取簇中所有元素各自维度的算术平均数。 4、将D中全部元素按照新的中心重新聚...
2018-03-01 12:18:59 987
转载 HIVE面试题
1 hive表关联查询,如何解决数据倾斜的问题?倾斜原因:map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。1)、key分布不均匀;2)、业务数据本身的特性;3)、建表时考虑不周;4)、某些SQL语句本身就有数据倾斜;如何避免:对于key为空产生的数据倾斜,可以对其赋予一个随机值。解决方案1...
2018-03-01 12:18:44 1164
原创 朴素贝叶斯(NaiveBeyesian Classification,NB)
1、贝叶斯定理假设对于某个数据集,随机变量C表示样本为C类的概率,F1表示测试样本某特征出现的概率,套用基本贝叶斯公式,则如下所示:上式表示对于某个样本,特征F1出现时,该样本被分为C类的条件概率。那么如何用上式来对测试样本分类呢?举例来说,有个测试样本,其特征F1出现了(F1=1),那么就计算P(C=0|F1=1)和P(C=1|F1=1)的概率值。前者大,则该样本被认为是0类;后者大,则分为1类...
2018-03-01 12:18:35 1076
原创 KNN算法
KNN(K-Nearest Neighbor)介绍计算距离公式(常用欧氏距离): 算法思路:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 看下面...
2018-02-25 23:00:40 196
原创 hive常用sql命令
创建表hive> CREATE TABLE A (a INT, b STRING); 创建表并创建索引字段dshive> CREATE TABLE A (a INT, b STRING) PARTITIONED BY (ds STRING); 显示所有表hive> SHOW TABLES;按正条件(正则表达式)显示表,hive> SHOW TABLES '.*s';表添加一...
2018-02-25 20:12:10 933
转载 Hive数据倾斜与调优总结
在做Shuffle阶段的优化过程中,遇 到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些 Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段 的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据...
2018-02-25 01:46:16 247
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人