autumnLemon-CSDN博客

原创 java.lang.Object类(JDK1.8)

目录1、Object 类的结构图 2、为什么java.lang包下的类不需要手动导入？ 3、类构造器 4、equals 方法 5、getClass 方法 6、hashCode 方法　　一、hashCode 要求　　二、hashCode 编写指导： 7、toString 方法 8、notify()/notifyAll()/wait() 9、finalize 方法 1...

2019-03-26 07:53:00 513

转载十大排序算法总结

0、算法概述0.1 算法分类十种常见排序算法可以分为两大类：非线性时间比较类排序：通过比较来决定元素间的相对次序，由于其时间复杂度不能突破O(nlogn)，因此称为非线性时间比较类排序。线性时间非比较类排序：不通过比较来决定元素间的相对次序，它可以突破基于比较排序的时间下界，以线性时间运行，因此称为线性时间非比较类排序。 0.2 算法复杂度0.3 相关概念...

2018-09-17 09:57:18 364

在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。资源参数设置的不合理，可能会导致没有充分利用集群资源，作业运行会极其缓慢；或者设置的资源过大，队列没有足够的资源来提供，进而导致各种异常。总之，无论是哪...

2018-09-17 09:34:53 504

转载 Spark性能优化：开发调优篇

在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。　　然而，通过Spark开发出高性能的大数据计算作业，并不是那么简单的。如果没有对Spark作业进行合理的调优，Spark作业的执行速度可能会很慢，这样就完全体现不...

2018-09-17 09:33:51 580

转载 RDD的两种操作（Transformation和Action）

RDD创建后就可以在RDD上进行数据处理。RDD支持两种操作：转换（transformation），即从现有的数据集创建一个新的数据集；动作（action），即在数据集上进行计算后，返回一个值给Driver程序。 RDD 的转化操作是返回一个新的 RDD 的操作，比如 map() 和 filter() ，而行动操作则是向驱动器程序返回结果或把结果写入外部系统的操作，会触发实际的计算，比如 co...

2018-09-17 09:00:55 5440

原创 PCA和协方差的理解

学过概率统计的孩子都知道，统计里最基本的概念就是样本的均值，方差，或者再加个标准差。首先我们给你一个含有n个样本的集合，依次给出这些概念的公式描述，这些高中学过数学的孩子都应该知道吧，一带而过。很显然，均值描述的是样本集合的中间点，它告诉我们的信息是很有限的，而标准差给我们描述的则是样本集合的各个样本点到均值的距离之平均。以这两个集合为例，[0，8，12，20]和[8，9，11，12]，两...

2018-08-23 15:05:07 689

原创 Linux更换安装源

1、Linux更换为清华yum源首先备份源文件 CentOS-Base.reposudo mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.bak 将新的源文件上传到/etc/yum.repos.d 目录或在改目录下新建一个文件命名为 CentOS-Base.repo 文件内容为注意 ...

2018-08-15 22:07:16 3997

原创 Spark问题解决 - Exception in thread "main" java.lang.SecurityException: Invalid signature file digest...

问题描述：运行spark-submit --master yarn --deploy-mode client --class cn.hadron.AvgAge /root/simpleSpark.jar input/age.txt，出现以下错误Exception in thread "main" java.lang.SecurityException: Invalid signature fi...

2018-08-14 16:25:37 5464 1

原创 Spark问题解决 - scala.Predef$.$scope()Lscala/xml/TopScope$和not found: type Application异常

使用intellij idea+scala+spark，运行程序提示下面错误。问题1描述：java.lang.NoSuchMethodError: scala.Predef$.$scope()Lscala/xml/TopScope$;Using Spark's default log4j profile: org/apache/spark/log4j-defaults.propertie...

2018-08-14 11:34:57 1608 1

原创 Spark问题解决 - 运行bin/run-example SparkPi 4 4出错

之前Spark用的是集群模式，今天试试本地模式，运行样例报错。错误如下：[root@s210 spark-2.2.0]# bin/run-example SparkPi 4 4Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties18/08/13 17:09:42 INFO Spar...

2018-08-13 17:21:56 4321

原创 linux重启和关闭系统命令

重启命令：1、reboot2、shutdown -r now 立刻重启(root用户使用)3、shutdown -r 10 过10分钟自动重启(root用户使用)4、shutdown -r 20:35 在时间为20:35时候重启(root用户使用)关机命令：1、halt 立刻关机2、poweroff 立刻关机3、shutdown -h now 立刻关机(roo...

2018-08-11 23:45:36 3309

原创 VMware克隆CentOS7，解决网络配置问题

问题：今天在学习时，安装CentOS7 mini版，静态IP配置完毕后，关闭虚拟机centos-1，克隆虚拟机为centos-2。克隆出来的虚拟机使用ifconfig命令，源机centos-1的网卡名称为eno16777736，克隆机的网卡名称变成了ens33，虚机无法配置网络。原因是克隆出来的虚机与源虚机有相同的网卡MAC地址和UUID。大多技术博客都说删除网络配置文件的UUID和HWADD...

2018-08-10 17:09:07 1728 1

转载牛人的Mysql学习笔记

/* Windows服务 */-- 启动MySQL net start mysql-- 创建Windows服务 sc create mysql binPath= mysqld_bin_path(注意：等号与值之间有空格)/* 连接与断开服务器 */mysql -h 地址 -P 端口 -u 用户名 -p 密码SHOW PROCESSLIST -- 显示哪些线程正在运行...

2018-08-10 08:57:20 238

原创理解SQL

很多程序员认为SQL是一头难以驯服的野兽。它是为数不多的声明性语言之一，也因为这样，其展示了完全不同于其他的表现形式、命令式语言、面向对象语言甚至函数式编程语言（虽然有些人觉得SQL 还是有些类似功能）。　　我每天都写SQL，我的开源软件JOOQ中也包含SQL。因此我觉得有必要为还在为此苦苦挣扎的你呈现SQL的优美！下面的教程面向于：已经使用过但没有完全理解SQL的读者...

2018-08-10 08:42:16 333

转载 MySQL存储过程

存储过程简介SQL语句需要先编译然后执行，而存储过程（Stored Procedure）是一组为了完成特定功能的SQL语句集，经编译后存储在数据库中，用户通过指定存储过程的名字并给定参数（如果该存储过程带有参数）来调用执行它。存储过程是可编程的函数，在数据库中创建并保存，可以由SQL语句和控制结构组成。当想要在不同的应用程序或平台上执行相同的函数，或者封装特定功能时，存储过程是非常有用的。...

2018-08-09 21:58:36 131

原创 MySQL常用功能语句分类总结

C（创建型功能）如果想让用户可以对其他用户授权,需加上WITH GRANT OPTION创建数据库：CREATE DATABASE 创建用户：CREATE USER 用户名@主机 IDENTIFIED BY 密码; -- 如果想让该用户可以从任意远程主机登陆,可以使用通配符% 授权：GRANT ALL PRIVILEGES|权限列表 ON 库名.*|库名.表名 TO 用户名 IDENT...

2018-08-09 18:19:48 203

转载 Hive 面试以及知识点

1. hive表关联查询，如何解决数据倾斜的问题? 倾斜原因： map输出数据按key Hash的分配到reduce中，由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。 1)、key分布不均匀; 2)、业务数据本身的特性; 3)、建表时考虑不周; 4)、某些SQL语句本身就有数据倾斜; ...

2018-08-06 10:56:30 224

原创 Hadoop的MapReduce和Yarn

1. Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而mapreduce等运算程序则相当于运行于操作系统之上的应用程序；Yarn是hadoop2.0版本新添加的；2.YARN基本组成结构：YARN 主要由ResourceManager、NodeManager、ApplicationMaster和Container 等几个组件构成。 ...

2018-08-03 17:16:40 256

原创 Hadoop的MAPReduce之shuffle

1. shuffle: 洗牌、发牌——（核心机制：数据分区，排序，缓存）；shuffle具体来说：就是将maptask输出的处理结果数据，分发给reducetask，并在分发的过程中，对数据按key进行排序；2. shuffle缓存流程：shuffle是MapReduce处理流程中的一个过程，每一个处理步骤是分散在各个maptask和reducetask节点上完成的，整体来看，分为...

2018-08-03 17:15:59 285

原创 Hadoop的MapReduce之maptask和reducetask

mapreduce就是一个分布式程序的通用框架：一个完整的mapreduce程序在分布式运行时有三类实例进程：（根据hadoop2.0以后版本进行讲述）1、MRAppMaster：负责整个程序的过程调度及状态协调；2、mapTask：负责map阶段的整个数据处理流程；3、ReduceTask：负责reduce阶段的整个数据处理流程；具体流程解析如下：1. 一个MapReduce...

2018-08-03 17:15:25 630

原创 Hadoop的split和block的区别和联系

hadoop在默认的情况下，split和hdfs的block的大小是一样的，这样容易造成误解认为两者是一样的，下面说下两者的区别和联系：1. split是MapReduce里的概念，是切片的概念，split是逻辑切片；而block是hdfs中切块的大小，block是物理切块；2. split的大小在默认的情况下和HDFS的block切块大小一致，为了是MapReduce处理的时候减少由于...

2018-08-03 17:14:52 1234 1

原创 Hadoop的HDFS中的namenode和secondarynamenode的内容总结

NameNode主要是用来保存HDFS的元数据信息，比如命名空间信息，块信息等等。当它运行的时候，这些信息是存在内存中的。但是这些信息也可以持久化到磁盘上：fsimage：它是NameNode启动时对整个文件系统的快照。 edits：它是在NameNode启动后，对文件系统的改动序列。　　只有在NameNode重启时，edits才会合并到fsimage文件中，从而得到一个文件...

2018-08-03 17:14:15 766

原创 Hadoop的HDFS中namenode和datenode内容分析

NameNode：是Master节点，是大领导。管理数据块映射；处理客户端的读写请求；配置副本策略；管理HDFS的名称空间；SecondaryNameNode：是一个小弟，分担大哥namenode的工作量；是NameNode的冷备份；合并fsimage和fsedits然后再发给namenode。DataNode：Slave节点，奴隶，干活的。负责存储client发来的数据块block；执行...

2018-08-03 17:13:19 1363

转载 hivesql和mysql常见问题

1） EXISTS （）括号里只要有返回值就会执行 EXISTS 之前的语句2） select 1 的问题3） in查询相当于多个or条件的叠加，这个比较好理解，比如下面的查询select * from user where userId in (1, 2, 3);等效于select * from user where userId = 1 or userId = 2 or...

2018-08-02 08:37:00 303

转载 hive整合hbase

1.首先把hive下的指定jar复制到hbase的lib下scp $HIVE_HOME/lib/hive-hbase-handler-1.1.0-cdh5.4.0.jar $HBASE_HOME/lib/2. 把hbase下的所有jar复制到hive的lib下scp $HBASE_HOME/lib/*.jar $HIVE_HOME/lib/3.整合代码在hive的客户端中运行下...

2018-08-01 23:45:54 146

转载 Hive的分区表和分桶表的区别

1，Hive分区。是指按照数据表的某列或某些列分为多个区，区从形式上可以理解为文件夹，比如我们要收集某个大型网站的日志数据，一个网站每天的日志数据存在同一张表上，由于每天会生成大量的日志，导致数据表的内容巨大，在查询时进行全表扫描耗费的资源非常多。那其实这个情况下，我们可以按照日期对数据表进行分区，不同日期的数据存放在不同的分区，在查询时只要指定分区字段的值就可以直接从该分区查找。...

2018-08-01 23:45:05 1201

原创 hive的基本使用及HQL

=====================================================================1、创建库：create database if not exists mydb; 创建库的时候带注释 ...

2018-08-01 23:44:14 1300

转载 hive面试题及解题思路

第一题：现有这么一批数据，现要求出：每个用户截止到每月为止的最大单月访问次数和累计到该月的总访问次数三个字段的意思：用户名，月份，访问次数 A,2015-01,5 A,2015-01,15 B,2015-01,5 A,2015-01,8 B,2015-01,25 A,2015-01,5 A,2015-02,4 A,2015-02,...

2018-08-01 23:31:53 641

转载 hive的HiveServer2/beeline配置及使用

第一：修改 hadoop 集群的 hdfs-site.xml 配置文件：加入一条配置信息，表示启用 webhdfscd /home/hadoop/apps/hadoop-2.7.5/etc/hadoop<property> <name>dfs.webhdfs.enabled</name> <value>true<...

2018-08-01 23:21:30 2138

转载 hive-2.3.3的安装详解

1.安装前的准备：首先需要搭建好hadoop集群并启动（需要启动hdfs和yarn） mysql启动正常2.hive的安装方式一（不推荐）：内嵌 Derby 版本 1、上传安装包 apache-hive-2.3.2-bin.tar.gz 2、解压安装包 tar -zxvf apache-hive-2.3.2-bin.tar.gz -C ...

2018-08-01 23:19:35 327

原创 HDFS的shell常用命令大全

1.启动相关启动zookeeper：zkServer.sh start启动HDFS：start-dfs.sh不管在集群中的那个节点都可以启动YARN：start-yarn.sh 只能在YARN主节点中进行启动HDFS : http://hadoop02:50070YARN ： http://hadoop05:80882.-ls: ...

2018-08-01 23:11:30 834

转载大数据平台常用组件端口号

常见端口汇总：Hadoop： 50070：HDFS WEB UI端口 8020 ：高可用的HDFS RPC端口 9000 ：非高可用的HDFS RPC端口 8088 ： Yarn 的WEB UI 接口 8485 ： JournalNode 的RPC端口 8019 ： ZKFC端口 19888：jobhistory ...

2018-08-01 22:49:40 233

转载 hadoop生态圈各个组件简介

Hadoop 是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。Hadoop 的核心是 HDFS 和 Mapreduce，HDFS还包括YARN。1，HDFS（hadoop分布式文件系统）是hadoop体系中数据存储管理的基础。他是一个高度容错的系统，能检测和应对硬件故障。client：切分文件，访问HDFS，与那么弄得交互，获取文件位置信息，与Dat...

2018-08-01 14:41:28 989

转载 Kmeans、Kmeans++和KNN算法比较

K-Means介绍 K-means算法是聚类分析中使用最广泛的算法之一。它把n个对象根据他们的属性分为k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。其聚类过程可以用下图表示：如图所示，数据样本用圆点表示，每个簇的中心点用叉叉表示。(a)刚开始时是原始数据，杂乱无章，没有label，看起来都一样，都是绿色的。...

2018-07-31 23:10:15 143

原创最小二乘法的思想

最小二乘法则是一种统计学习优化技术，它的目标是最小化误差平方之和来作为目标，从而找到最优模型，这个模型可以拟合（fit）观察数据。回归学习最常用的损失函数是平方损失函数，在此情况下，回归问题可以用著名的最小二乘法来解决。最小二乘法就是曲线拟合的一种解决方法。最小二乘法的问题分为两类：线性最小二乘法非线性最小二乘法如果是线性的则有闭式解(closed-form solution)，...

2018-07-31 19:27:27 10120 1

原创程序员高手必会的十大编程算法

算法（Algorithm）是指解题方案的准确而完整的描述，是一系列解决问题的清晰指令，算法代表着用系统的方法描述解决问题的策略机制。也就是说，能够对一定规范的输入，在有限时间内获得所要求的输出。如果一个算法有缺陷，或不适合于某个问题，执行这个算法将不会解决这个问题。不同的算法可能用不同的时间、空间或效率来完成同样的任务。一个算法的优劣可以用空间复杂度与时间复杂度来衡量。算法中的指令描述的是一个...

2018-07-30 23:02:51 787

原创 Linux下环境变量PATH设置错误，导致命令都找不到

PATH设置出错，所有的命令都找不到了，提示说在/usr/bin/下面可以找到，使用export命令解决：export PATH=/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin这样所有的命令就都回来了，如果以前配置了比如JDK的环境变量，可以再看下环境变量回来没：echo $PATH ...

2018-07-27 10:24:30 691

原创 Java编程实现A*算法完整代码

这篇文章主要介绍了Java编程实现A*算法完整代码，简单介绍了A*算法，然后分享了完整测试代码，具有一定借鉴价值，需要的朋友可以参考下。前言A*搜寻算法俗称A星算法。这是一种在图形平面上，有多个节点的路径，求出最低通过成本的算法。常用于游戏中通过二维数组构建的一个迷宫，“%”表示墙壁，A为起点，B为终点，“#”代表障碍物，“*”代表算法计算后的路径本文实例代码结构：% %...

2018-07-24 21:50:34 9740 13

原创 JAVA项目打开出现红色感叹号！

JAVA项目打开出现红色感叹号！但是项目里面没有任何错误！检查buildpath也没错出现以下情况:解决方法: 可能是Jar包路径不对,在项目右击jar包，然后选buildPath——>removed; 然后右击项目Build Path——>Counfiger Build Path，左边java Build Path——>右边标签 Libraries—> 右...

2018-07-24 00:07:12 1358

原创 java.lang.ClassNotFoundException: org.gjt.mm.mysql.Driver错误在eclipse中的解决方法

在Eclipse中学习Java和数据库的连接调试程序过程中爆出java.lang.ClassNotFoundException: org.gjt.mm.mysql.Driver错误。虽然在classpath中已经添加了相关的路径，但是在Eclipse的这个工程中没有添加.　　解决办法是工程名上点击右键-Properties(属性)-Java Build Path(Java构建路径...

2018-07-24 00:07:04 7119 1

空空如也

空空如也