与其临渊羡鱼 不如退而结网

记录, 成为更好的自己。1.01^365=37.78,0.99^365=0.025

排序:
默认
按更新时间
按访问量

十大排序算法总结

0、算法概述 0.1 算法分类 十种常见排序算法可以分为两大类: 非线性时间比较类排序:通过比较来决定元素间的相对次序,由于其时间复杂度不能突破O(nlogn),因此称为非线性时间比较类排序。 线性时间非比较类排序:不通过比较来决定元素间的相对次序,它可以突破基于比较排序的时间下界,以线...

2018-09-17 09:57:18

阅读数:27

评论数:0

Spark性能优化:资源调优篇

在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资...

2018-09-17 09:34:53

阅读数:31

评论数:0

Spark性能优化:开发调优篇

      在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。   然而,通过Spark开发出高性能的大数据计算作业,并不是那...

2018-09-17 09:33:51

阅读数:42

评论数:0

RDD的两种操作(Transformation和Action)

RDD创建后就可以在RDD上进行数据处理。RDD支持两种操作:转换(transformation),即从现有的数据集创建一个新的数据集;动作(action),即在数据集上进行计算后,返回一个值给Driver程序。  RDD 的转化操作是返回一个新的 RDD 的操作,比如 map() 和 filt...

2018-09-17 09:00:55

阅读数:31

评论数:0

PCA和协方差的理解

学过概率统计的孩子都知道,统计里最基本的概念就是样本的均值,方差,或者再加个标准差。首先我们给你一个含有n个样本的集合,依次给出这些概念的公式描述,这些高中学过数学的孩子都应该知道吧,一带而过。 很显然,均值描述的是样本集合的中间点,它告诉我们的信息是很有限的,而标准差给我们描述的则是样本集...

2018-08-23 15:05:07

阅读数:30

评论数:0

Linux更换安装源

1、Linux更换为清华yum源 首先备份源文件 CentOS-Base.repo sudo mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.bak 将新的源文件上传到/etc/yum.repo...

2018-08-15 22:07:16

阅读数:97

评论数:0

Spark问题解决 - Exception in thread "main" java.lang.SecurityException: Invalid signature file digest...

问题描述: 运行spark-submit --master yarn --deploy-mode client --class cn.hadron.AvgAge /root/simpleSpark.jar input/age.txt,出现以下错误Exception in thread &...

2018-08-14 16:25:37

阅读数:99

评论数:0

Spark问题解决 - scala.Predef$.$scope()Lscala/xml/TopScope$和not found: type Application异常

使用intellij idea+scala+spark,运行程序提示下面错误。 问题1描述:java.lang.NoSuchMethodError: scala.Predef$.$scope()Lscala/xml/TopScope$; Using Spark's default log4j...

2018-08-14 11:34:57

阅读数:37

评论数:0

Spark问题解决 - 运行bin/run-example SparkPi 4 4出错

之前Spark用的是集群模式,今天试试本地模式,运行样例报错。 错误如下: [root@s210 spark-2.2.0]# bin/run-example SparkPi 4 4 Using Spark's default log4j profile: org/apache/spark/lo...

2018-08-13 17:21:56

阅读数:124

评论数:0

linux重启和关闭系统命令

重启命令: 1、reboot 2、shutdown -r now 立刻重启(root用户使用) 3、shutdown -r 10 过10分钟自动重启(root用户使用) 4、shutdown -r 20:35 在时间为20:35时候重启(root用户使用) 关机命令: 1、halt  ...

2018-08-11 23:45:36

阅读数:26

评论数:0

VMware克隆CentOS7,解决网络配置问题

问题: 今天在学习时,安装CentOS7 mini版,静态IP配置完毕后,关闭虚拟机centos-1,克隆虚拟机为centos-2。克隆出来的虚拟机使用ifconfig命令,源机centos-1的网卡名称为eno16777736,克隆机的网卡名称变成了ens33,虚机无法配置网络。原因是克隆出来...

2018-08-10 17:09:07

阅读数:97

评论数:0

牛人的Mysql学习笔记

/* Windows服务 */ -- 启动MySQL net start mysql -- 创建Windows服务 sc create mysql binPath= mysqld_bin_path(注意:等号与值之间有空格) /* 连接与断开服务器 */ mysql -h 地...

2018-08-10 08:57:20

阅读数:96

评论数:0

理解SQL

      很多程序员认为SQL是一头难以驯服的野兽。它是为数不多的声明性语言之一,也因为这样,其展示了完全不同于其他的表现形式、命令式语言、 面向对象语言甚至函数式编程语言(虽然有些人觉得SQL 还是有些类似功能)。   我每天都写SQL,我的开源软件JOOQ中也包含SQL。因此我觉得有必要为...

2018-08-10 08:42:16

阅读数:63

评论数:0

MySQL存储过程

存储过程简介 SQL语句需要先编译然后执行,而存储过程(Stored Procedure)是一组为了完成特定功能的SQL语句集,经编译后存储在数据库中,用户通过指定存储过程的名字并给定参数(如果该存储过程带有参数)来调用执行它。 存储过程是可编程的函数,在数据库中创建并保存,可以由SQL语句和...

2018-08-09 21:58:36

阅读数:22

评论数:0

MySQL常用功能语句分类总结

C(创建型功能) 如果想让用户可以对其他用户授权,需加上WITH GRANT OPTION 创建数据库:CREATE DATABASE 创建用户:CREATE USER 用户名@主机 IDENTIFIED BY 密码; -- 如果想让该用户可以从任意远程主机登陆,可以使用通配符% 授权:G...

2018-08-09 18:19:48

阅读数:36

评论数:0

Hive 面试以及知识点

1. hive表关联查询,如何解决数据倾斜的问题? 倾斜原因: map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。 1)、key分布不均匀; 2)、业务数据...

2018-08-06 10:56:30

阅读数:61

评论数:0

Hadoop的MapReduce和Yarn

1. Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而mapreduce等运算程序则相当于运行于操作系统之上的应用程序;Yarn是hadoop2.0版本新添加的; 2.YARN基本组成结构: YARN 主要由ResourceManager、Nod...

2018-08-03 17:16:40

阅读数:56

评论数:0

Hadoop的MAPReduce之shuffle

1. shuffle: 洗牌、发牌——(核心机制:数据分区,排序,缓存); shuffle具体来说:就是将maptask输出的处理结果数据,分发给reducetask,并在分发的过程中,对数据按key进行排序; 2. shuffle缓存流程: shuffle是MapReduce处理流程中...

2018-08-03 17:15:59

阅读数:27

评论数:0

Hadoop的MapReduce之maptask和reducetask

mapreduce就是一个分布式程序的通用框架:一个完整的mapreduce程序在分布式运行时有三类实例进程:(根据hadoop2.0以后版本进行讲述) 1、MRAppMaster:负责整个程序的过程调度及状态协调; 2、mapTask:负责map阶段的整个数据处理流程; 3、ReduceT...

2018-08-03 17:15:25

阅读数:83

评论数:0

Hadoop的split和block的区别和联系

hadoop在默认的情况下,split和hdfs的block的大小是一样的,这样容易造成误解认为两者是一样的,下面说下两者的区别和联系: 1. split是MapReduce里的概念,是切片的概念,split是逻辑切片 ;而block是hdfs中切块的大小,block是物理切块; 2. spl...

2018-08-03 17:14:52

阅读数:90

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭