2018年10月_zerone-f

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月

转载 JVM的内存分配策略

转载地址：JVM总结（二）：JVM的内存分配策略目录内存分配策略　　对象优先在新生代Eden分配　　大对象直接进入老年代　　长期存活的对象将进入老年代　　动态对象年龄判定　　空间分配担保一、内存分配策略 1.Java技术体系中所提倡的自动内存管理可以归结于两个部分：给对象分配内存以及回收分配给对象的内存。 2.我们都知道，Java对象分配，都是在Java堆上进行分配...

2018-10-31 21:01:44 181

原创第10课：jvm的gc中关于对象的age问题以及jvm的内存分配策略彻底详解

内容： 1.对象的Age的问题 2.JVM的内存分配策略一、JVM内存结构图二、对象的Age的问题以及内存分配策略详细文章：JVM的内存分配策略 1.Eden中比较频繁的GC，每次GC都会导致内存分布的变化。对象的计数器：对象的Age是标记的关键。年轻代的GC又叫minor GC。对象GC年龄阈值默认是15。每次GC后还存活就将对象Age加1。 2....

2018-10-31 20:49:04 416

原创第9课：jvm的gc时候核心参数详解：-XX：NewRatio、-XX：SurvivorRatio、-XX：NewSize、-XX：MaxNewSize

内容： 1.-XX：NewRatio 2.-XX：SurvivorRatio 3.-XX：NewSize和-XX：MaxNewSize一、JVM内存结构图二、参数详解 1.-xx：NewRatio：年轻代和老年代相对的比值大小大小，如果设置-XX：NewRatio=4，指标是Young Generation：Old Generation = 1:4，即年...

2018-10-31 17:19:07 7674

原创第8课: JVM的young Generation大小对gc性能的致命影响力内幕解密

内容： 1.JVM Young Generation工作机制详解 2.Young Generation对GC的性能的影响一、VM Young Generation工作机制详解 1.年轻代和年老代实现算法不同，年轻代GC是有空间的，释放已经占用的空间，年老代GC是没有空间了，是迫不得已，大部分的JVM对象生命周期都不是很长。 2.整个Heap分为年轻代和年...

2018-10-31 11:49:20 2095

原创第7课：瞬间理解jvm Gc时的内存管理工作流程和频繁gc的原因

内容： 1.JVM GC时候的内存管理 2.频繁GC原因初步分析 3.补充一、JVM GC时候的内存管理1.从对象角度来看在JVM进行GC时，内存中存在新生代（年轻代）、老年代（年老代）、永久代。在我们运行程序时，会创建很多对象。 a）从生命周期上看：根据经验，绝大多数对象在使用过之后就不会在使用了。也就是说这些对象的使用的生命周期比较短。当然相应的，...

2018-10-31 09:53:37 376

原创第6课：实战演示从oom推导出jvm Gc时候基于的内存结构：young Generation（eden、from、to）、old Generation、permanent Generation

内容： 1.实战演示Windows和Linux下的OOM 2.GC时候基于的内存结构一、演示及分析1.不同的平台JVM实现有所差别： a）在Windows下栈的最小值为108k b）在Linux下栈的最小值为228k2.通过以下异常信息，可以推导jvm的内存结构。[Full GC (Ergonomics) [PSYoungGen: 944K-&g...

2018-10-31 08:25:58 416

转载 JVM架构和GC垃圾回收机制详解

转载地址：JVM架构和GC垃圾回收机制详解 JVM被分为三个主要的子系统：1. 类加载器子系统2. 运行时数据区3. 执行引擎1. 类加载器子系统Java的动态类加载功能是由类加载器子系统处理。当它在运行时（不是编译时）首次引用一个类时，它加载、链接并初始化该类文件。1.1 加载类由此组件加载。启动类加载器 (BootStrap class Loade...

2018-10-31 08:15:15 262

原创第61课：Spark SQL数据加载和保存内幕深度解密实战

内容： 1.SparkSQL加载数据 2.SparkSQL保存数据 3.SparkSQL对数据处理的思考一、SparkSQL加载数据 1.SQLContext中有load方法，实际上也就是使用了DataFrameReader的load方法。目前的Spark 1.6.0中,虽然SQLContext还有load方法，但已被设置为@deprecated。也就是说在...

2018-10-29 23:44:50 181

原创第5课：实战演示jvm三大性能调优参数：-xms -xmx -xss

内容：1.实战演示-Xss性能调优参数2.实战演示-Xms、-Xmx性能调优参数一、实战演示-Xss性能调优参数 Java每个线程的Stack大小。JDK5.0以后每个线程堆栈大小为1M，以前每个线程堆栈大小为256K。根据应用的线程所需内存大小进行调整。在相同物理内存下，减小这个值能生成更多的线程。但是操作系统对一个进程内的线程数还是有限制的，不能无限生成，经验值在3000...

2018-10-29 17:37:50 821

原创第3课：图解JVM线程引擎和内存共享区的交互以及此背景下的程序计算器内幕解密

内容： 1.JVM线程引擎和内存共享区交互 2.计数器内幕一、图解 1.多线程Java运用程序：为了让每个线程正常工作就提出了程序计数器(Program Counter Register)，每个线程都有自己的程序计数器，这样当线程执行切换的时候就可以早上一次执行的基础上继续执行，仅仅从一条线程执行的角度而言，代码是一条一条的往下执行的，这个时候就是Program C...

2018-10-29 08:59:40 178

原创第60课：使用Java和Scala在IDE中实战RDD和DataFrame动态转换操作

内容： 1.作业特别说明 2.使用Java实战RDD与DataFrame转换 3.使用Scala实战RDD与DataFrame转换一、作业特别说明1.列的个数，以及每一列的具体的信息只有在运行的时候才会知道：2.生产环境时候，常用的方式：动态转化，第一：生产环境的时候，一开始不容易确定每一条记录的不同的列的元数据信息，以及这条数据到底有多少列。 ...

2018-10-28 22:38:22 280

原创第59课：使用Java和Scala在IDE中实战RDD和DataFrame转换操作

内容： 1.RDD与DataFrame转换的重大意义 2.使用Java实战RDD与DataFrame转换 3.使用Scala实战RDD与dataFrame转换一． RDD与DataFrame转换的重大意义 1.在Spark中RDD可以直接转换成DataFrame。SparkCore的核心是RDD，所有的调度都是基于RDD完成的，对RDD的操作都可以转换成基...

2018-10-28 18:04:10 219

原创第2课：详细图解jvm内存三大核心区域及其jvm内存案例实战剖析

内容： 1.图解JVM内存的三大核心区 2.JVM内存使用案例剖析一、图解JVM内存的三大核心区二、VM内存使用案例剖析从JVM调用的角度分析Java程序对内存空间的使用： 1.当JVM进程启动的时候,会从类加载路径中找到包含main 法的入口类JVM； 2.找到JVM后会直接读取该文件中的二进制数据并且把该类的信息放到运行的Method内存区...

2018-10-28 11:52:12 349

原创第1课：实战演示jvm内存四大类型问题：heap、stack、contant、directmemory等

JVM前置知识零、参数设置：设置VM options： -verbose:gc -Xms10M -Xmx10M -XX:MaxDirectMemorySize=5M -Xss228K -XX:+PrintGCDetails　　JVM启动参数共分为三类：　　1、标准参数（-），所有的JVM实现都必须实现这些参数的功能，而且向后兼容。例如：-verbose:class...

2018-10-28 10:08:12 791 2

转载第0课：JVM前置知识

内容： 1.内存溢出类型 2.JVM内存区域组成 3.VM如何设置虚拟内存 4.性能检查工具使用 5.不健壮代码的特征及解决办法一、内存溢出类型 1.java.lang.OutOfMemoryError: PermGen space a）JVM管理两种类型的内存，堆和非堆。堆是给开发人员用的上面说的就是，是在JVM启动时创建...

2018-10-28 08:38:24 324

原创第58课：使用Java和Scala在IDE中开发DataFrame实战

内容： 1.使用Java开发DataFrame实战 2.使用Scala开发DataFrame实战 1.可以把SparkSQl作为一个分布式查询引擎。SparkSQL一般都和Hive一起使用。2.使用Java开发Spark应用程序的原因： a）企业生产环境下大多以Java为核心 b）Java更傻瓜，更易理解3.SQLContext中有HiveContext子类...

2018-10-27 19:47:58 278

原创第56课：揭秘Spark SQL和DataFrame的本质

一、SparkSQL与DataFrame SparkSQL之所以是除了Spark Core以外最大和最受关注的组件，原因是： a）处理一切存储介质和各种格式的数据(同时可以方便的扩展SparkSQL的功能来支持更多类型的数据，例如Kudu)； b）SparkSQL把数据仓库的计算能力推向了新的高度，不仅是无敌的计算速度(SparkSQL比Shark快了至少一个数量级，而Shar...

2018-10-26 22:14:37 213

原创第55课：60分钟内从零起步驾驭Hive实战学习笔记

内容： Hive本质解析 Hive安装实战使用Hive操作搜索引擎数据实战SparkSQL前身是Shark，Shark强烈依赖于Hive。Spark原来没有做SQL多维度数据查询工具，后来开发了Shark，Shark依赖于Hive的解释引擎，部分在Spark中运行，还有一部分在Hadoop中运行。所以讲SparkSQL必须讲Hive。一、Hive...

2018-10-26 22:06:44 519

原创 Ubuntu厦大学生账号链接厦大XMUNET+

打开系统设置->网络->无线->XMUNET+输入你的Username和Password就可以了

2018-10-18 10:26:01 1104

原创解决Hive的Establishing SSL connection without server's identity verification is not recommended问题

问题描述：hive> Sat Oct 13 15:36:32 CST 2018 WARN: Establishing SSL connection without server's identity verification is not recommended. According to MySQL 5.5.45+, 5.6.26+ and 5.7.6+ requirements SS...

2018-10-13 16:15:45 2359

原创 Hive分析电商数据

最近学习Hive的基本使用，下面就记录一下我学习Hive的一些基本语句数据可以到这里下载：链接: https://pan.baidu.com/s/1RAoicaE7uygtUpdwE-ACtg 提取码: ysrm数据格式：tbDate.txt2003-1-1,200301,2003,1,1,3,1,1,1,12003-1-2,200301,2003,1,2,4,1,1,1,1...

2018-10-13 16:00:33 3669 3

原创 Hive分析搜索引擎的数据

最近学习Hive的基本使用，下面就记录一下我学习Hive的一些基本语句数据格式：（数据可以点击：用户查询日志(SogouQ)下载搜狗实验室的数据，可以根据自己的需要选择数据规模）00:00:00 2982199073774412 [360安全卫士] 8 3 download.it.com.cn/softweb/software/firewall/antiviru...

2018-10-13 11:47:23 1699

原创 4399大数据笔试题

今天晚上参加了厦门4399公司的大数据笔试，自己没有拍下题目，一下是根据自己在草稿纸上简要记录回忆下写出来的，具体的选项记不起来，大体题目在下面，欢迎大家给出自己的见解答案一、选择题 1.四个土豪在一次聚会中比拼财产的逻辑推理题。 A：四个人中，B最富。 B：四个人中，C最富。 C：我不是最富有的。 D：C...

2018-10-10 22:29:31 4584 2

原创 Hive基础

一、Hive的历史价值 1.Hive是Hadoop上的Killer Application，Hive是hadoop上的数据仓库，Hive同时兼具有数据仓库的存储引擎和查询引擎的作用，而SparkSQL是一个更加出色和高级的查询引擎，所以现在在企业级应用中SparkSQL+Hive成为了业界使用大数据最为高效和流行的趋势。 2.Hive是Facebook退出，主要是为了让不懂Ja...

2018-10-10 21:27:15 195

原创 Hadoop链式的MapReduce编程

通过多个Mapper过滤出符合要求的数据输入数据：computer 5000SmartPhone 3000Tablet 15000TV 5000Book 18Clothes 150Gloves 9SmartPhone 3000Tablet 1500computer 5000SmartPhone 3000...

2018-10-10 15:23:06 344

原创 Hadoop MapReduce多维排序

在实际的编程过程中，经常遇到需要对数据进行多维度的排序。数据数据：Spark 100Hadoop 60Kafka 95Spark 99Hadoop 65Kafka 98Spark 99Hadoop 63Kafka 97要求，对key和同一组的value也进行排序输出数据：编程示例：import org.apache.hadoop.conf.Configur...

2018-10-10 11:42:30 238

原创 hadoop MapReduce倒排索引编程

统计每个单词在每个文件中出现的次数输入数据：file1.txtSpark is so powerfulfile2.txtSpark is the most exciting thing happening in big data todayfile3.txtHello Spark Hello again Spark输出格式：代码实现：import or...

2018-10-10 00:45:54 489

原创 hadoop MapReduce自连接算法实现

HHadoop的MapRedcuer自连接实现，找出每个child的grandprent，如Tom是Lucy的child，Lucy是Mary的child，那么Mary是Tom 的grandparent。输入数据：child parentTom LucyTom JackJone LucyJone JackLucy MaryLucy BenJack AliceJack Je...

2018-10-09 18:06:31 1013

转载 Hadoop MapReduce二次排序算法与实现之实现

转自：一起学Hadoop——二次排序算法的实现二次排序，从字面上可以理解为在对key排序的基础上对key所对应的值value排序，也叫辅助排序。一般情况下，MapReduce框架只对key排序，而不对key所对应的值排序，因此value的排序经常是不固定的。但是我们经常会遇到同时对key和value排序的需求，例如Hadoop权威指南中的求一年的高高气温，key为年份，value为最高气温，年...

2018-10-08 16:16:59 1494 1

原创 Hadoop MapReduce二次排序算法与实现之算法解析

MapReduce二次排序的原理 1.在Mapper阶段，会通过inputFormat的getSplits来把数据集分割成splitpublic abstract class InputFormat<K, V> { public InputFormat() {} public abstract List<InputSplit> getSplits(...

2018-10-08 09:47:05 410

原创 Hadoop Join性能优化

为什么要优化？数据格式address.txt1 America2 China3 Germennumber.txt1 Spark 12 Hadoop 13 Flink 24 Kafka 35 Tachyon 2输出格式：发现程序运行的时候总是没法把结果写到HDFS上，有问...

2018-10-07 22:38:15 240

原创用Hadoop的MapReduce处理员工信息Join操作

在进行处理员工信息Join编程时，遇到了一点问题，我想先不纠结这个问题了，到后面有时间在慢慢来看这个问题吧输入的数据格式worker.txt empno ename job mgr hiredate sal comm deptno loc 7499 allen salesman 7698 1981-02-20 ...

2018-10-07 10:56:35 549

原创用Hadoop的MapReduce计算框架实战URL流量分析

输入的数据格式：123.13.17.13 - - [25/Aug/2016:00:00:01 +0800] "GET /AppFiles/apk/studynet/icon_v120/apk_80111_1.jpg HTTP/1.1" 206 51934 "http://img.xxx.com:8080/AppFiles/apk/studynet/icon_v120/apk_80111_1.j...

2018-10-06 23:42:49 832

原创用Hadoop中MapReduce进行TopN排序

数据格式：10,3333,10,10011,9321,1000,29312,3881,701,2013,6974,910,3014,8888,11,39订单ID 用户ID 资费业务ID在所有订单数据中计算出资费最高的N个订单，按降序排列算法思想：在大量的数据中计算出资费最高的N个订单，为了节省资源和提高计算效率：在众多的Mapper的端，首先计算出自己的TopN，然后在...

2018-10-06 22:02:19 2662

原创用Hadoop的MapReduce求最大最小值

最近在系统学习大数据知识，学了没有记录过几天又忘光了，所以把学习内容记录下来，方便以后查看找出数据中的最大值和最小值输入数据格式： 4568 2 6598 2222222 8899 3 7 9 1 0 56 96 564 145 231 8899 889...

2018-10-06 18:56:59 6847 1

原创用Hadoop的MapReduce求平均值

最近在系统学习大数据知识，学了没有记录过几天又忘光了，所以把学习内容记录下来，方便以后查看 import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.FloatWritable;import org.apache.hadoop.io....

2018-10-06 18:52:02 1176

原创使用Hadoop的MapReduce实现数据排序

最近想系统学习大数据知识，在观看视频编写代码的时候，在数据排序的时候，出现了一些问题，一致于弄了好久才找到原因，现在记录下来，方便查看数据输入格式：按照我的代码逻辑，应该输出数据为在代码处理时，计算结果却是没有输出输入的数据，而是输出最后保存在HDFS上的数据只是1 12 23 34 45 56 67 7...

2018-10-06 16:20:33 15327 4

原创使用Hadoop的MapReduce来实现数据去重

最近在系统学习大数据知识，学了没有记录过几天又忘光了，所以把学习内容记录下来，方便以后查看 import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Tex...

2018-10-06 15:48:42 1555

原创用Hadoop的MapReduce气象数据编程

一：数据格式分析 1.数据（下载地址：ftp://ftp.ncdc.noaa.gov/pub/data/noaa） 0067011990999991950051507004888888889999999N9+00001+9999999999999999999999 0067011990999991950051512004888888889999999N9+00221+99...

2018-10-06 00:41:11 2676 3

原创 Linux scp命令

Linux 命令大全Linux scp命令用于Linux之间复制文件和目录。scp是 secure copy的缩写, scp是linux系统下基于ssh登陆进行安全的远程文件拷贝命令。语法scp [-1246BCpqrv] [-c cipher] [-F ssh_config] [-i identity_file][-l limit] [-o ssh_option] [-P p...

2018-10-05 22:51:33 161