- 博客(12)
- 资源 (15)
- 收藏
- 关注
转载 dataFrame操作
spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选、合并,重新入库。首先加载数据集,然后在提取数据集的前几行过程中,才找到limit的函数。而合并就用到union函数,重新入库,就是registerTemple注册成表,再进行
2016-07-29 14:41:44 4059
原创 spark参数调整
直接报错 spark Kryo serialization failed: Buffer overflow 错误提示需要调整的参数是 spark.kryoserializer.buffer.max 最少是20 默认的显示为0 --conf 'spark.kryoserializer.buffer.max=64'
2016-07-23 16:41:29 7346
原创 spark的submit
# Run on a YARN clusterexport HADOOP_CONF_DIR=XXX./bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master yarn \ --deploy-mode cluster \ # can be client for client mode --e
2016-07-17 22:17:14 741
原创 WARN zookeeper.RecoverableZooKeeper: Unable to create ZooKeeper Connection
在提交spark作業的時候遇到的问题。16/07/13 17:08:24 WARN zookeeper.RecoverableZooKeeper: Unable to create ZooKeeper Connectionjava.net.UnknownHostException: 10.24.62.184at org.apache.spark.deploy.Spar
2016-07-13 18:12:28 7878 1
原创 相似度算法
1. 杰卡德相似系数(Jaccardsimilarity coefficient)(1) 杰卡德相似系数两个集合A和B的交集元素在A,B的并集中所占的比例,称为两个集合的杰卡德相似系数,用符号J(A,B)表示。杰卡德相似系数是衡量两个集合的相似度一种指标。(2) 杰卡德距离与杰卡德相似系数相反的概念是 杰卡德距离( Jaccarddistance)。
2016-07-13 09:13:45 1020
转载 GC调优在Spark应用中的实践
| 来源《程序员》电子刊5月B 作者王道远,黄洁通常CMS GC是企业比较常用的GC配置方案,并在长期实践中取得了比较好的效果。例如对于进程中若存在大量寿命较长的对象,Parallel GC经常带来较大的性能下降。因此,即使是批处理的程序也能从CMS GC中获益。不过,在从1.6开始的HOTSPOT JVM中,我们发现了一个新的GC设置项:Garbage-First GC(G1 GC)。O
2016-07-06 20:01:59 651
转载 spark on yarn作业运行的jar包缓存优化
这几天一直在追查spark on yarn的作业运行中的jar包分发,以及执行后的jar包删除的问题。从一开始的毫无头绪,到后来逐渐清晰,到后来通过hadoop的两个很简单的参数配置解决了问题。不得不说,虽然问题不大,对某些大牛们来说也真是小case,但是追查问题,定位问题到最终解决问题的过程,对我来说真是很不错的体验和学习过程。下面详细描述一下遇到的问题,以及解决的过程,给后面的同学一点参考。
2016-07-06 19:59:15 2580
原创 Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
Caused by: org.datanucleus.exceptions.NucleusException: Attempt to invoke the "DBCP" plugin to create a ConnectionPool gave an error : The specified datastore driver ("com.mysql.jdbc.Driver") was no
2016-07-06 19:46:20 2382 1
原创 The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH
Caused by: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClientCaused by: org.datanucleus.exceptions.NucleusException: Attempt to invoke th
2016-07-06 17:37:05 4912
转载 Kafka 之 中级
摘要Kafka配置介绍,原理介绍及生产者,消费者Java基本使用方法。1. 配置Ø Broker主要配置 参数默认值说明(解释)broker.id =0每一个broker在集群中的唯一表示,要求是正数。当该服务器的IP地址发生改变时,broker.id没有变化,则不会影响co
2016-07-04 17:51:22 500
转载 eclipse快捷键及重置快捷键
Ctrl+1快速修复(最经典的快捷键,就不用多说了)Ctrl+D删除当前行Ctrl+Alt+↓复制当前行到下一行(复制增加)Ctrl+Alt+↑复制当前行到上一行(复制增加)Alt+↓当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)
2016-07-04 17:25:58 909
原创 快速排序
public class Algorithm_Java { static ArrayList listNumber = new ArrayList<>(); public static void main(String[] args) { listNumber.add(6); listNumber.add(2); listNumber.add(7); listNumbe
2016-07-02 10:57:58 351
useragent解析逻辑&手机品牌匹配.txt
2021-11-22
shakespeare.json&logs;.jsonl.gz&accounts;.zip
2018-01-10
kafka-manager 1.3.3.15
2018-01-08
百度网盘 数据仓库工具箱 维度建模权威指南 第3版 全
2017-10-16
数据仓库工具箱 维度建模权威指南 第3版
2017-10-16
IDEA 创建scala工程并打指定的依赖包
2017-08-11
hbase自定义Comparator进行数值比较
2016-11-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人