自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小白成小黑

大数据-机器学习-人工智能

  • 博客(8)
  • 收藏
  • 关注

原创 hive导入csv出现中文乱码问题

在HIVE中序列化的时候需要指定一下字符编码,这是HIVE issue解决办法中找到的。https://issues.apache.org/jira/browse/HIVE-7142。依照这个文档的说明,对指定的表进行设置,即设置序列化编码为GBK,以WINDOW拷贝导入的数据编码相匹配。ALTER TABLE ** SET SERDEPROPERTIES ('serialization.enco...

2018-05-31 09:57:13 1952

转载 正则表达式语法

原文链接:https://www.cnblogs.com/ldq2016/p/5528177.html1.正则表达式基本语法两个特殊的符号'^'和'$'。他们的作用是分别指出一个字符串的开始和结束。例子如下:"^The":表示所有以"The"开始的字符串("There","The cat"等);"of despair$":表示所以以"of despair"结尾的字符串;"^abc

2018-05-30 11:31:35 901

原创 Spark executor中task的数量与最大并发数

每个task处理一个partition,一个文件的大小/128M就是task的数量Task的最大并发数当task被提交到executor之后,会根据executor可用的cpu核数,决定一个executor中最多同时运行多少个task。默认情况下一个task对应cpu的一个核。如果一个executor可用cpu核数为8,那么一个executor中最多同是并发执行8个task;...

2018-05-28 17:30:55 6807

转载 spark参数解读

Spark On YARN内存分配时间 2015-06-09 00:00:00 JavaChen's Blog原文  http://blog.javachen.com/2015/06/09/memory-in-spark-on-yarn.html主题 Spark YARN本文主要了解Spark On YARN部署模式下的内存分配情况,因为没有深入研究Spark的源代码,所以只能根据日志去看相关的源...

2018-05-25 16:18:40 1241

转载 递归例子

刚接触递归的同学,可能难以理解递归,难以理解的点可能很多,例如:1.函数为什么可以在自己的内部又调用自己呢?2.既然可以自己调用自己,那么递归运行过程中一定回有很多层相互嵌套,到底什么时候不再嵌套呢?3.递归运行过程中,相互嵌套的多层之间会有参数传递,多层之间是否会相互影响?递归两个要素1.递归边界2.递归的逻辑——递归"公式"递归的过程一定有参数的变化,并且参数的变化,和递归边界有关系.在难度较...

2018-05-22 18:17:00 259

转载 尽量使用reduceByKey代替groupByKey

val words = Array("one", "two", "two", "three", "three", "three")val wordPairsRDD = sc.parallelize(words).map(word => (word, 1)) val wordCountsWithReduce = wordPairsRDD  .reduceByKey(_ + _)

2018-05-18 18:46:11 3237

转载 初步认识正则表达式

学习正则表达式的最好方法是从例子开始,理解例子之后再自己对例子进行修改,实验。下面给出了不少简单的例子,并对它们作了详细的说明。假设你在一篇英文小说里查找hi,你可以使用正则表达式hi。这是最简单的正则表达式了,它可以精确匹配这样的字符串:由两个字符组成,前一个字符是h,后一个是i。通常,处理正则表达式的工具会提供一个忽略大小写的选项,如果选中了这个选项,它可以匹配hi,HI,Hi,hI这四种情况...

2018-05-18 15:50:26 133

原创 WIN7下运行hadoop程序报:Failed to locate the winutils binary in the hadoop binary path

报Failed to locate the winutils binary in the hadoop binary path  java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.下载winutils的windows版本  GitHub上,有人提供了winuti...

2018-05-17 18:58:38 705

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除