![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据技术
老男孩-Leo
1.时刻保持学习的姿态
2.一天不进步,就是退步!
3.专注但要有大局观(先大后小,思路为先,实验为辅),一个人一生只要做好一件事就够了!记住:凡事预则立,不预则废。
展开
-
RDD:基于内存的集群计算容错抽象
该论文来自Berkeley实验室,英文标题为:Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing摘要本文提出了分布式内存抽象的概念——弹性分布式数据集(RDD,Resilient Distributed Datasets),它具备像MapReduce等数据流模型的容错原创 2016-08-14 22:38:37 · 390 阅读 · 0 评论 -
Hadoop 2.0版本wordcount 以及 排序
Hadoop 2.0版本wordcount 以及 排序/**hadoop版本的wordcount* 然后进行单词出现次数进行倒排序** */import java.io.IOException;import java.util.Random;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configurati原创 2016-11-08 15:52:31 · 1425 阅读 · 0 评论 -
Spark1.6 java7 scala+java.lang.UnsupportedClassVersionError
Spark1.6 +java7 +scala报错类型: Exception in thread “main” java.lang.UnsupportedClassVersionError: StatDemo : Unsupported major.minor version 52.0Spark submit提交Exception in thread "main" java.lang.Unsuppo原创 2017-07-07 11:28:49 · 500 阅读 · 0 评论 -
Scala 数组(Array),列表(List),元组(Tuple),集(Set),映射(Map),迭代器(Iterator)
1. 数组(Array)数组是编程中经常用到的数据结构,一般包括定长数组和变长数组。本教程旨在快速掌握最基础和常用的知识,因此,只介绍定长数组。定长数组,就是长度不变的数组,在Scala中使用Array进行声明,如下:val intValueArr = new Array[Int](3) //声明一个长度为3的整型数组,每个数组元素初始化为0intValueArr(0) = 12 //给第1个数原创 2017-08-02 15:03:53 · 4053 阅读 · 0 评论 -
Spark数据倾斜问题
Spark数据倾斜问题数据倾斜问题现象原因数据问题spark使用问题数据层面分析解决方案数据倾斜问题现象多数task执行速度较快,少数task执行时间非常长,一直卡在某一个stage达几小时或者几分钟之久,或者等待很长时间后提示你内存不足,执行失败。图中可以很明显的看出是卡在reduceByKey的算子上。原因常见于各种shuffle操作,例如reduceByKey,groupByK...原创 2019-01-23 15:23:24 · 602 阅读 · 0 评论 -
numpy 内置函数总结
import numpy as np #axis=1 表示按列 axis=0表示行np的数组创建函数(ndarray) 函数 说明 np.array 将输入数据(列表,元组,数组或其他序列类型)转换为ndarray。要么推断出dtype,要么显示指定dtype。默认直接复制输入数据。比如:arr1 = np.array([1...原创 2016-07-22 11:06:50 · 14648 阅读 · 1 评论 -
mongo批量插入问题(insert_many,bulk_write)
mongo批量插入问题1. 遇到问题2. 解决问题2.2 方法1:批量插入insert_many2.3 方法2:批量更新bulk_write(UpdateOne)2.3.1 bulk_write定义3. 性能测试1. 遇到问题每天通过spark等数据库框架批量处理的结果数据最少500万条记录,每天需要导入到mongo数据库,最初通过update one的方法一条一条进行更新插入,耗时大约2小时...原创 2019-07-08 15:01:18 · 24071 阅读 · 5 评论 -
hive常用函数
hive常用函数1.字符串函数1.1 字符串长度函数:length1.2 字符串反转函数:reverse1.3 字符串连接函数:concat1.4 带分隔符字符串连接函数:concat_ws1.5 字符串截取函数:substr,substring1.6 字符串截取函数:substr,substring1.7 字符串转大写函数:upper,ucase1.8 字符串转小写函数:lower,lcase1...原创 2019-07-08 20:16:13 · 996 阅读 · 0 评论