自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(678)
  • 资源 (252)
  • 收藏
  • 关注

原创 Win7 Eclipse 搭建spark java1.8(lambda)环境:WordCount helloworld例子

Win7 Eclipse 搭建spark java1.8(lambda)环境:WordCount helloworld例子马克-to-win @ 马克java社区:lambda表达式是java8给我们带来的一个重量的新特性,借用lambda表达式可以让我们的程序设计更加简洁。package com;import org.apache.spark.SparkConf;import org.a...

2019-06-01 09:36:52 185

原创 System memory 259522560 must be at least 4.718592

/*没有下面的话,会报一个错误,java.lang.IllegalArgumentException: System memory 259522560 must be at least 4.718592E8(470M). Please use a larger heap size.这是memory不够,导致无法启动SparkContext*/ conf.set("s...

2019-06-01 09:36:34 289

原创 Win7 Eclipse 搭建spark java1.8环境:WordCount helloworld例子

Win7 Eclipse 搭建spark java1.8环境:WordCount helloworld例子马克-to-win @ 马克java社区:在eclipse oxygen上创建一个普通的java项目,然后把spark-assembly-1.6.1-hadoop2.6.0.jar这个包导进工程就ok了。只要启动start-dfs,下面的程序就可以运行了。package com;import ...

2019-06-01 09:28:04 301

原创 Win7 Eclipse 搭建spark java1.8编译环境,JavaRDD的helloworld例子

Win7 Eclipse 搭建spark java1.8编译环境,JavaRDD的helloworld例子:马克-to-win @ 马克java社区:在eclipse oxygen上创建一个普通的java项目,然后把spark-assembly-1.6.1-hadoop2.6.0.jar这个包导进工程就ok了。package com;import java.util.Arrays;import j...

2019-06-01 09:27:21 299

原创 Windows Eclipse Scala编写WordCount程序

Windows Eclipse Scala编写WordCount程序:1)马克-to-win @ 马克java社区:无需启动hadoop,因为我们用的是本地文件。先像原来一样,做一个普通的scala项目和Scala Object。但这里一定注意版本是2.10.6,因为缺省的不好使。改的方法是:右击项目/properties/Scala Compiler.2)像spark的java版WordCoun...

2019-06-01 09:19:14 224

原创 Spark Scala当中reduce的用法和例子

马克-to-win @ 马克java社区:reduce将RDD中元素前两个传给输入函数,产生一个新的return值,将新产生的return值与RDD中下一个元素(即第三个元素)组成两个元素,再被传给输入函数,这样递归运作,直到最后只有一个值为止。*/ val rdd07 = sc.parallelize(1 to 10) val sum = rdd07.reduce((x, y) ...

2019-05-31 18:34:53 3169

原创 MapReduce当中的reduce当中的cleanup的用法

reduce当中的cleanup的用法:马克-to-win @ 马克java社区:上面的topN是解决每个组里的topN,比如每个订单中的最小的。但如果需要横向的比较所有的key(初学者忽略:cleanup方法慎用, 如果所有的key的数据巨大量怎么办?Map map = new HashMap();内存都不够了, 所以考虑多步mapreduce),选出topN,得用cleanup。马克-to-w...

2019-05-31 17:41:25 2657

原创 MapReduce当中Partitioner的用法

Partitioner的用法:马克-to-win @ 马克java社区:防盗版实名手机尾号:73203。如果现在我们的需求变成,输出放在两个文件当中,按照关键字的首个字母的26个字母来分,头13个放在一个文件当中,以此类推, 这时我们就要用到partition的技术。package com;import java.io.IOException;import java.util.String...

2019-05-31 17:30:07 471

原创 Scala当中parallelize并行化的用法

马克-to-win:parallelize并行化集合是根据一个已经存在的Scala集合创建的RDD对象。集合的里面的元素将会被拷贝进入新创建出的一个可被并行操作的分布式数据集。例如:val rdd03 = sc.parallelize(List(1, 4, 3, 7, 5)) 根据系统环境来进行切分多个slice,每一个slice启动一个Task来进行处理。val rdd03 = sc.par...

2019-05-31 16:15:28 4746

原创 请给出一个Scala RDD的HelloWorld例子

马克-to-win @ 马克java社区:package comimport org.apache.spark.rdd.RDDimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextobject TestRDD { def main(args: Array[String]): Unit = { ...

2019-05-31 15:49:26 156

原创 Spark的lazy特性有什么意义呢?

马克-to-win @ 马克java社区:Spark通过lazy特性有什么意义呢? Spark通过lazy特性,可以进行底层的spark应用执行的优化。在生活中,就像三思而后行。谋定而后动。更多请看下节:https://blog.csdn.net/qq_44596980/article/details/93309261...

2019-05-31 15:44:43 787

原创 Scala当中什么是Transformation和 Action,以及它们俩的区别是什么?

马克-to-win @ 马克java社区:一个完整的RDD任务由两部分组成:Transformation和 Action。Transformation用于对RDD的创建,还可以把老的RDD通过Transformation来生成新的RDD。例如,map就 是一种transformation操作,它用于将已有RDD的每个元素传入一个自定义的函数,并得到一个新的元素,然后将所有的新元素组成一个新的 RD...

2019-05-31 15:42:30 612

原创 Scala当中什么是RDD(Resilient Distributed Datasets)弹性分布式数据集

马克-to-win@马克Java社区:RDD(Resilient Distributed Datasets)弹性分布式数据集。你不好理解的话,可以把RDD就可以看成是一个简单的"动态数组"(比如ArrayList),对其操作,也只需要 调用它的方法而已,和java中的ArrayList一样。但它与一般动态数组的区别在于:RDD是分布的。弹性是指的是数据自动在内存和磁盘切换, task如果失败会进行...

2019-05-31 15:31:51 255

原创 Scala 孤立对象和单例对象方法体的用法和例子

1 马克-to-win@ 马克java社区: 以object关键字修饰一个类名,这种语法叫做孤立对象,这个对象是单例的。 相当于将单例类和单例对象同时定义。相当于java中的单例,即在内存中只会存在一个Test3实例。创建一个Scala Object,它相当于java的static, 不要用Scala-class去建工程,不然就不能建main函数了。2 方法声明以def开头, 然后是方法名...

2019-05-31 15:20:02 219

原创 Scala当中mkString()方法的使用

1)mkString()方法的使用:马克-to-win @ 马克java社区:防盗版实名手机尾号:73203package comobject Test{ def main(args: Array[String]): Unit = { var name : String = "Hello mark-to-win" var tmp=""/*def mkString(sep: S...

2019-05-31 15:19:56 2724

原创 Windows Eclipse Scala第一次启动时各种错误

Windows Eclipse Scala第一次启动时各种错误:1)马克-to-win@ 马克java社区:防盗版实名手机尾号:73203 Could not reserve enough space for object heap解决方法:下面的缩写中:一个是memory max(Xmx), 一个是memory start (Xms)。在eclipse.ini中这样来设置解决:-Dosgi.r...

2019-05-30 16:15:39 218

原创 windows scala helloworld例子详解

马克-to-win@ 马克java社区:windows scala helloworld例子详解: 在操作系统中,我们的Test3.scala会生成Test3.class,然后class文件被虚拟机加载并执行, 这一点和java是一样的。1 马克-to-win@ 马克java社区: 以object关键字修饰一个类名,这种语法叫做孤立对象,这个对象是单例的。 相当于将单例类和单例对象同时定义。...

2019-05-30 12:04:57 168

原创 如何判断你的windows系统是32位还是64位?

马克-to-win@ 马克java社区:如 何判断你的windows系统是32位还是64位? java -version时,如果没有64就是32位的。eclipse.ini中如果没有64,就是32位的。但是我们的ini文件里面有这句话: plugins/org.eclipse.equinox.launcher.win32.win32.x86_64_1.1.500.v20170531-1133解决...

2019-05-30 12:03:11 960

原创 eclipse scala failed to load the jni shared library

3)马克-to-win@ 马克java社区:之后再重新启动Eclipse,又报错:“failed to load the jni shared library”这是由于刚下载的scala eclipse ide是64位,而我们过去的java home设置32位的jdk,下载一个64位的jdk,改一下就可以了。32位java home:C:\Progra~2\Java\jdk1.8.0_144...

2019-05-30 11:59:34 137

原创 eclipse scala Java was started but returned exit code=13

马克-to-win @ 马克java社区:之后再重新启动Eclipse,又报错:Java was started but returned exit code=13原因:path中配置了:C:\ProgramData\Oracle\Java\javapath路径,之前安装什么别的软件的时候改变了它,于是删除,问题解决了。更多请看下节:https://blog.csdn.net/qq_445...

2019-05-30 11:56:23 155

原创 eclipse scala Could not reserve enough space for object heap

1)马克-to-win@ 马克java社区:防盗版实名手机尾号:73203 Could not reserve enough space for object heap解决方法:下面的缩写中:一个是memory max(Xmx), 一个是memory start (Xms)。在eclipse.ini中这样来设置解决:-Dosgi.requiredJavaVersion=1.8-Xmx30...

2019-05-30 11:52:03 185

原创 有关带scala版本的eclipse4.7的下载

马克-to-win @ 马克java社区:有关带scala版本的eclipse4.7的下载, 你可以直接去:http://scala-ide.org/download/sdk.html下载下来后是:scala-SDK-4.7.0-vfinal-2.12-win32.win32.x86_64.zip,解压,展开。其实就是一个带着scala版本的64位的eclipse47(oxygen)。进入目录中...

2019-05-30 11:45:01 215

原创 Windows Eclipse Scala的入门HelloWorld

Windows Eclipse Scala的入门HelloWorld马克-to-win @ 马克java社区:有关带scala版本的eclipse4.7的下载, 你可以直接去:http://scala-ide.org/download/sdk.html下载下来后是:scala-SDK-4.7.0-vfinal-2.12-win32.win32.x86_64.zip,解压,展开。其实就是一个带着s...

2019-05-30 11:43:04 194

原创 Windows32位或64位下载安装配置Scala

Windows 32位或64位下载安装配置Scala:1)马克-to-win @ 马克java社区:下载地址:http://www.scala-lang.org/download/,看我的spark那节,要求scala是2.11以上,我就下载:scala-2.11.8.msi。2)安装:双击scala-2.11.8.msi安装包,启动安装程序,全部默认安装。3)配置:a)在系统变量中新增SCALA...

2019-05-24 16:28:35 266

原创 Windows32或64位下载安装配置Spark

Windows 32或64位下载安装配置Spark:1)下载地址:http://spark.apache.org/downloads.html马克-to-win @ 马克java社区:选择需要下载的Spark版本,我选的是当前最新的版本2.2.0。因为我已经安装了Hadoop 2.7.4版本的,所以我选择对应的Pre-built for Hadoop 2.7 and later。注意网站上说sca...

2019-05-24 16:27:30 206

原创 如何做大表和大表的关联?

如何做大表和大表的关联? 对于大表和大表的关联: 1.reducejoin可以解决关联问题,但不完美,有数据倾斜的可能,如前所述。 2.思路:将其中一个大表进行切分,成多个小表再进行关联。package com;import org.apache.commons.lang.StringUtils;import org.apache.hadoop.io.LongWritable;import...

2019-05-24 16:23:24 1638

原创 Map端join的流程是什么?

马克-to-win@ 马克java社区:Map端join的流程是什么:1)在setup阶段:先把一个,这里就是产品全表(即字典表)所有数据读取到HashMap集合中,2)之后再在map方法中一行一行处理数据。缺点: 1.需要一个表(字典表)所有数据都加载到缓存中,所以不能太大。所以带来的问题就是这种mapJoin仅仅适用于大小表,小小表关联。更多请见:https://blog.csdn.n...

2019-05-24 16:22:15 311

原创 map端做join和reduce端做join有何区别?

马克-to-win @ 马克java社区:map 端做join和reduce端做join有何区别?我们前面讲的是Reduce端join,因为Reduce端join需要把所有的数据都经过 Shuffle,非常消耗资源,效率要远远低于Map端join。Map端join是指只有map工作,reduce不工作,这样可以有效的避免数据倾 斜。更多请见:https://blog.csdn.net/qq_4...

2019-05-24 16:19:34 1022

原创 MapReduce实现join算法

MapReduce实现join算法马克-to-win @ 马克java社区:需求:订单表:(order)订单号(id),产品号(pid),数量(number)1,p2,22,p3,32,p4,12,p5,43,p1,51,p1,3产品表:(product)产品号(id),产品名(pname),价格(price)p1,java,11p2,c,22p3,c#,33p4,python,44p5,js,6...

2019-05-24 16:16:42 198

原创 MapReduce当中自定义对象的用法

马克-to-win @ 马克java社区:到目前为止,我们在hadoop网络上传的变量类型都是预定义的类型比如Text或IntWritable等,但有时需要我们,自己建一个类,把预定义的简单数据类型封装在里头而且还能像预定义的类型一样在hadoop网络中传输,这样更便于管理和运作。这样就需要向下面这样implements Writable。实现write和readFields方法。思路:如果想求平...

2019-05-24 16:00:48 314

原创 MapReduce项目如何输出jar包?

7)程序打包:(只要yarn jar命令可以运行, 这里就一定能运行)右键单击工程,点开“Export…”,在弹出的对话框中选择“java/JAR file”,这样就会生成到项目的根目录的上一层,针对生成的“WordCount.jar”,通过以下命令执行程序:hadoop jar WordCount.jar /README.txt /output4以下为结果:K:\eclipse-wo...

2019-05-24 15:50:29 796

原创 MapReduce当中Combiner的用法

马克-to-win @ 马克java社区:防盗版实名手机尾号:73203。在上一章的helloworld例子中,每一个map都可能会产生大量的本地输出,这些输出会通过网络到达reducer端,这样会非常浪费带宽。解决这个问题可以通过Combiner。Combiner的作用就是对map端的输出先做一次合并,是MapReduce的一种优化手段之一。package com;import java.io....

2019-05-24 15:41:57 201

原创 MapReduce的输入文件是两个

1.对于MapReduce程序,如何输入文件是两个文件?马 克-to-win @ 马克java社区:这一小节,我们将继续第一章大数据入门的HelloWorld例子做进一步的研究。这里,我们研究如何输入文件是两个文件。package com;import java.io.IOException;import java.util.StringTokenizer;import org.apache.h...

2019-05-24 10:14:38 465

原创 hadoop在eclipse当中如何添加源码?

/*org.apache.hadoop.mapreduce.Mapper.Context,java.lang.InterruptedException,想看map的源代码,按control,点击,出现Attach Source Code,点击External Location/External File,找到源代码,就在Source目录下,,D:\hadoop-2.7.4\src其中key为此行...

2019-05-20 16:26:02 241

原创 MapReduce的shuffle过程详解

结果分析:马克-to-win@ 马克java社区:shuffle的英文是洗牌,混洗的意思,洗牌就是越乱越好的意思。当在集群的情况下是这样的,假如有三个map节点和三个reduce节点,一号reduce节点的数据会来自于三个map节点,而不是就来自于一号map节点。所以说它们的数据会混合,路线会交叉, 3叉3。想象一下,像不像洗牌? 马克-to-win @ 马克java社区:shuffle在Map...

2019-05-20 16:25:09 294

原创 hadoop WordCount例子详解。

马克-to-win @ 马克java社区:下载hadoop-2.7.4-src.tar.gz,拷贝hadoop-2.7.4-src.tar.gz中hadoop-mapreduce-project\hadoop-mapreduce-examples\src\main\java\org\apache\hadoop\examples下的WordCount.java文件中的内容到新创建的WordCount...

2019-05-20 11:17:59 331

原创 Hadoop的eclipse的插件是怎么安装的?

1)马克-to-win@ 马克java社区:网上下载hadoop-eclipse-plugin-2.7.4.jar,将该jar包拷贝到Eclipse安装目录下的dropins文件夹下,我的目录是C:\Users\test\eclipse\jee-oxygen\eclipse\dropins,然后重启Eclipse就可以看到MapReduce选项了。2)启动eclipse,点开Windows-&g...

2019-05-20 11:17:26 188

原创 Windows用Eclipse来开发hadoop的WordCount的helloworld

2.Win7用Eclipse来开发hadoop的WordCount的helloworld1)马克-to-win @ 马克java社区:网上下载。。。。。。。将该jar包拷贝到Eclipse安装目录下的dropins文件夹下,我的目录是C:\Users\test\eclipse\jee-oxygen\eclipse\dropins,然后重启Eclipse就可以看到MapReduce选项了。2)启动e...

2019-05-20 11:16:45 354

原创 hdfs常用命令

hdfs常用命令:i)马克-to-win @ 马克java社区:防盗版实名手机尾号:73203。 hdfs dfs -mkdir /user 会在hadoop的根目录下创建一个目录。可以通过hdfs dfs -ls / 来查。或者可以查50070里的utilities。ii)在bin目录下,继续:hdfs dfs -put README.txt / (把本地README.txt上传到hadoop...

2019-05-20 10:34:39 186

原创 hadoop基本文件配置

5)hadoop基本文件配置:马克-to-win @ 马克java社区:hadoop配置文件位于:/etc/hadoop下(etc即:“etcetera”(附加物))core-site.xml:<configuration> <property> <name>fs.defaultFS</name> <va...

2019-05-20 10:24:23 217

类和对象的核心概念new5---马克-to-win Java视频

类和对象的核心概念new5---马克-to-win java视频 马克Java社区 马克towin

2018-08-04

类和对象的核心概念new2---马克-to-win Java视频

类和对象的核心概念new2---马克-to-win java视频 马克Java社区 马克towin

2018-08-04

类和对象的核心概念new1---马克-to-win Java视频

类和对象的核心概念new1---马克-to-win java视频 马克Java社区 马克towin

2018-08-04

把过去找大数的作业改编成放在现在的类里2---马克-to-win Java视频

把过去找大数的作业改编成放在现在的类里2---马克-to-win java视频 马克Java社区 马克towin

2018-08-04

把过去找大数的作业改编成放在现在的类里1---马克-to-win Java视频

把过去找大数的作业改编成放在现在的类里1---马克-to-win java视频 马克Java社区 马克towin

2018-08-04

String3.1-java堆和栈---马克-to-win Java视频

String3.1-java堆和栈---马克-to-win java视频 马克Java社区 马克towin

2018-08-04

Static块2---马克-to-win Java视频

Static块 2---马克-to-win Java视频 java视频 马克Java社区 马克towin

2018-08-04

java-c语法8---数组的数组1---马克-to-win java视频

java-c语法8---数组的数组1 java视频 马克java社区 马克towin

2018-07-12

java概述2---马克-to-win java视频

java概述2 java视频 马克java社区 马克towin的详细介绍

2018-07-11

java概述1---马克-to-win java视频

java概述1 java视频 马克java社区 马克towin的详细介绍

2018-07-11

jdk下载安装配置---马克-to-win java视频

jdk下载安装配置 java视频 马克java社区 马克towin的介绍

2018-07-11

java-c语法6 for循环---马克-to-win java视频

java-c语法6 for循环 java视频 马克java社区 马克towin

2018-07-11

java-c语法 2----马克-to-win java视频

java-c语法2 java视频 马克java社区 马克towin的详细介绍

2018-07-11

eclipse下载安装配置使用(上)---马克-to-win java视频

eclipse下载安装配置使用(上)java视频 马克java社区 马克towin

2018-07-11

Continue---马克-to-win java视频

Continue java视频 马克java社区 马克towin的详细介绍

2018-07-11

TCP协议的通信实例4---马克-to-win Java视频

TCP协议的通信实例4---马克-to-win Java视频 马克Java社区

2018-07-07

TCP协议的通信实例2---马克-to-win Java视频

TCP协议的通信实例2---马克-to-win Java视频 马克Java社区

2018-07-07

InetAddress的用法2---马克-to-win Java视频

InetAddress的用法2---马克-to-win Java视频 马克Java社区

2018-07-07

java网络编程模式2---马克-to-win Java视频

java网络编程模式2---马克-to-win Java视频 马克Java社区

2018-07-07

java网络编程模式1---马克-to-win Java视频

java网络编程模式1---马克-to-win Java视频的详细介绍

2018-07-07

URL类的实例---马克-to-win Java视频

URL类的实例---马克-to-win Java视频 马克Java社区的详细介绍

2018-07-07

UDP(数据报)协议的通信实例1---马克-to-win Java视频

UDP(数据报)协议的通信实例1---马克-to-win Java视频

2018-07-07

TCP协议的通信实例1---马克-to-win java视频

TCP协议的通信实例 java视频 马克java社区 马克towin的介绍

2018-07-06

InetAddress的用法1---马克-to-win java视频

InetAddress的用法1 java视频 马克java社区 马克towin

2018-07-06

DataSource的单态模式(SingleTon)程序---马克-to-win java视频

DataSource的单态模式(SingleTon)程序---马克-to-win java视频 数据源 单态模式 dataSource Singleton

2018-07-06

DataSource的HelloWorld程序---马克-to-win java视频

DataSource的HelloWorld程序 数据源 dataSource java视频 马克java社区 马克towin

2018-07-06

PreparedStatement 马克-to-win java视频

PreparedStatement 预编译statement 的详细介绍java视频 马克java社区 马克-to-win

2018-07-06

理论基础 1

JDBC的工作原理 ,JDBC是什么, JDBC的优点:跨数据库性

2018-07-06

引子1---马克-to-win java视频

引子1---马克-to-win java视频集合框架简介的详细介绍

2018-06-13

一个Iterator的实例2---马克-to-win java视频

一个Iterator的实例2---马克-to-win java视频的详细描述

2018-06-13

一个Iterator的实例1---马克-to-win java视频

一个Iterator的实例1---马克-to-win java视频迭代器的详细描述

2018-06-13

引子2---马克-to-win java视频

引子2---马克-to-win java视频集合框架简介的详细描述与介绍

2018-06-13

补充知识:泛型2---马克-to-win java视频

补充知识2 ---马克-to-win java视频泛型的详细描述与介绍

2018-06-13

补充知识:泛型1---马克-to-win java视频

补充知识:泛型1---马克-to-win java视频的详细描述与介绍

2018-06-13

一个Collections的例子---马克-to-win java视频

一个Collections的例子---马克-to-win java视频的详细介绍

2018-06-13

Properties的用法---马克-to-win Java视频

Properties的用法---马克-to-win Java视频属性的详细描述

2018-06-13

其他一些常见的集合类----马克-to-win Java视频

他一些常见的集合类----马克-to-win Java视频的详细描述

2018-06-13

List接口---马克-to-win java视频

List接口---马克-to-win java视频的详细的描述与介绍

2018-06-13

Hashtable的用法---马克-to-win Java视频

Hashtable的用法---马克-to-win Java视频哈希表的详细介绍

2018-06-13

Comparable的用法2---马克-to-win java视频

Comparable的用法2---马克-to-win java视频的详细描述

2018-06-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除