自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(57)
  • 资源 (6)
  • 收藏
  • 关注

转载 JVM的内存分配策略

转载地址:JVM总结(二):JVM的内存分配策略目录内存分配策略  对象优先在新生代Eden分配  大对象直接进入老年代  长期存活的对象将进入老年代  动态对象年龄判定  空间分配担保一、内存分配策略    1.Java技术体系中所提倡的自动内存管理可以归结于两个部分:给对象分配内存以及回收分配给对象的内存。     2.我们都知道,Java对象分配,都是在Java堆上进行分配...

2018-10-31 21:01:44 181

原创 第10课:jvm的gc中关于对象的age问题以及jvm的内存分配策略彻底详解

内容:    1.对象的Age的问题    2.JVM的内存分配策略一、JVM内存结构图二、对象的Age的问题以及内存分配策略详细文章:JVM的内存分配策略    1.Eden中比较频繁的GC,每次GC都会导致内存分布的变化。对象的计数器:对象的Age是标记的关键。年轻代的GC又叫minor GC。对象GC年龄阈值默认是15。每次GC后还存活就将对象Age加1。    2....

2018-10-31 20:49:04 416

原创 第9课:jvm的gc时候核心参数详解:-XX:NewRatio、-XX:SurvivorRatio、-XX:NewSize、-XX:MaxNewSize

内容:    1.-XX:NewRatio    2.-XX:SurvivorRatio    3.-XX:NewSize和-XX:MaxNewSize一、JVM内存结构图二、参数详解    1.-xx:NewRatio:年轻代和老年代相对的比值大小大小,如果设置-XX:NewRatio=4,指标是Young Generation:Old Generation = 1:4,即年...

2018-10-31 17:19:07 7674

原创 第8课: JVM的young Generation大小对gc性能的致命影响力内幕解密

内容:    1.JVM Young Generation工作机制详解    2.Young Generation对GC的性能的影响一、VM Young Generation工作机制详解    1.年轻代和年老代实现算法不同,年轻代GC是有空间的,释放已经占用的空间,年老代GC是没有空间了,是迫不得已,大部分的JVM对象生命周期都不是很长。    2.整个Heap分为年轻代和年...

2018-10-31 11:49:20 2095

原创 第7课:瞬间理解jvm Gc时的内存管理工作流程和频繁gc的原因

内容:    1.JVM GC时候的内存管理    2.频繁GC原因初步分析    3.补充一、JVM GC时候的内存管理1.从对象角度来看在JVM进行GC时,内存中存在新生代(年轻代)、老年代(年老代)、永久代。在我们运行程序时,会创建很多对象。    a)从生命周期上看:根据经验,绝大多数对象在使用过之后就不会在使用了。也就是说这些对象的使用的生命周期比较短。当然相应的,...

2018-10-31 09:53:37 376

原创 第6课:实战演示从oom推导出jvm Gc时候基于的内存结构:young Generation(eden、from、to)、old Generation、permanent Generation

内容:    1.实战演示Windows和Linux下的OOM    2.GC时候基于的内存结构一、演示及分析1.不同的平台JVM实现有所差别:    a)在Windows下栈的最小值为108k    b)在Linux下栈的最小值为228k2.通过以下异常信息,可以推导jvm的内存结构。[Full GC (Ergonomics) [PSYoungGen: 944K-&g...

2018-10-31 08:25:58 416

转载 JVM架构和GC垃圾回收机制详解

转载地址:JVM架构和GC垃圾回收机制详解 JVM被分为三个主要的子系统:1.  类加载器子系统2.  运行时数据区3.  执行引擎1. 类加载器子系统Java的动态类加载功能是由类加载器子系统处理。当它在运行时(不是编译时)首次引用一个类时,它加载、链接并初始化该类文件。1.1 加载类由此组件加载。启动类加载器 (BootStrap class Loade...

2018-10-31 08:15:15 262

原创 第61课:Spark SQL数据加载和保存内幕深度解密实战

内容:    1.SparkSQL加载数据    2.SparkSQL保存数据    3.SparkSQL对数据处理的思考一、SparkSQL加载数据    1.SQLContext中有load方法,实际上也就是使用了DataFrameReader的load方法。目前的Spark 1.6.0中,虽然SQLContext还有load方法,但已被设置为@deprecated。也就是说在...

2018-10-29 23:44:50 181

原创 第5课:实战演示jvm三大性能调优参数:-xms -xmx -xss

内容:1.实战演示-Xss性能调优参数2.实战演示-Xms、-Xmx性能调优参数一、实战演示-Xss性能调优参数    Java每个线程的Stack大小。JDK5.0以后每个线程堆栈大小为1M,以前每个线程堆栈大小为256K。根据应用的线程所需内存大小进行调整。在相同物理内存下,减小这个值能生成更多的线程。但是操作系统对一个进程内的线程数还是有限制的,不能无限生成,经验值在3000...

2018-10-29 17:37:50 821

原创 第3课:图解JVM线程引擎和内存共享区的交互以及此背景下的程序计算器内幕解密

内容:    1.JVM线程引擎和内存共享区交互    2.计数器内幕一、图解    1.多线程Java运用程序:为了让每个线程正常工作就提出了程序计数器(Program Counter Register),每个线程都有自己的程序计数器,这样当线程执行切换的时候就可以早上一次执行的基础上继续执行,仅仅从一条线程执行的角度而言,代码是一条一条的往下执行的,这个时候就是Program C...

2018-10-29 08:59:40 178

原创 第60课:使用Java和Scala在IDE中实战RDD和DataFrame动态转换操作

内容:    1.作业特别说明    2.使用Java实战RDD与DataFrame转换    3.使用Scala实战RDD与DataFrame转换一、作业特别说明1.列的个数,以及每一列的具体的信息只有在运行的时候才会知道:2.生产环境时候,常用的方式:动态转化,    第一:生产环境的时候,一开始不容易确定每一条记录的不同的列的元数据信息,以及这条数据到底有多少列。   ...

2018-10-28 22:38:22 280

原创 第59课:使用Java和Scala在IDE中实战RDD和DataFrame转换操作

内容:    1.RDD与DataFrame转换的重大意义    2.使用Java实战RDD与DataFrame转换    3.使用Scala实战RDD与dataFrame转换一.  RDD与DataFrame转换的重大意义    1.在Spark中RDD可以直接转换成DataFrame。SparkCore的核心是RDD,所有的调度都是基于RDD完成的,对RDD的操作都可以转换成基...

2018-10-28 18:04:10 219

原创 第2课:详细图解jvm内存三大核心区域及其jvm内存案例实战剖析

内容:    1.图解JVM内存的三大核心区    2.JVM内存使用案例剖析一、图解JVM内存的三大核心区二、VM内存使用案例剖析从JVM调用的角度分析Java程序对内存空间的使用:    1.当JVM进程启动的时候,会从类加载路径中找到包含main 法的入口类JVM;    2.找到JVM后会直接读取该文件中的二进制数据并且把该类的信息放到运行的Method内存区...

2018-10-28 11:52:12 349

原创 第1课:实战演示jvm内存四大类型问题:heap、stack、contant、directmemory等

JVM前置知识零、参数设置:   设置VM options: -verbose:gc -Xms10M -Xmx10M -XX:MaxDirectMemorySize=5M -Xss228K -XX:+PrintGCDetails  JVM启动参数共分为三类:      1、标准参数(-),所有的JVM实现都必须实现这些参数的功能,而且向后兼容。例如:-verbose:class...

2018-10-28 10:08:12 791 2

转载 第0课:JVM前置知识

内容:    1.内存溢出类型    2.JVM内存区域组成    3.VM如何设置虚拟内存    4.性能检查工具使用    5.不健壮代码的特征及解决办法一、内存溢出类型    1.java.lang.OutOfMemoryError: PermGen space        a)JVM管理两种类型的内存,堆和非堆。堆是给开发人员用的上面说的就是,是在JVM启动时创建...

2018-10-28 08:38:24 324

原创 第58课:使用Java和Scala在IDE中开发DataFrame实战

内容:    1.使用Java开发DataFrame实战    2.使用Scala开发DataFrame实战 1.可以把SparkSQl作为一个分布式查询引擎。SparkSQL一般都和Hive一起使用。2.使用Java开发Spark应用程序的原因:   a) 企业生产环境下大多以Java为核心   b)Java更傻瓜,更易理解3.SQLContext中有HiveContext子类...

2018-10-27 19:47:58 278

原创 第56课:揭秘Spark SQL和DataFrame的本质

一、SparkSQL与DataFrame  SparkSQL之所以是除了Spark Core以外最大和最受关注的组件,原因是:    a)处理一切存储介质和各种格式的数据(同时可以方便的扩展SparkSQL的功能来支持更多类型的数据,例如Kudu);    b)SparkSQL把数据仓库的计算能力推向了新的高度,不仅是无敌的计算速度(SparkSQL比Shark快了至少一个数量级,而Shar...

2018-10-26 22:14:37 213

原创 第55课:60分钟内从零起步驾驭Hive实战学习笔记

内容:       Hive本质解析       Hive安装实战       使用Hive操作搜索引擎数据实战SparkSQL前身是Shark,Shark强烈依赖于Hive。Spark原来没有做SQL多维度数据查询工具,后来开发了Shark,Shark依赖于Hive的解释引擎,部分在Spark中运行,还有一部分在Hadoop中运行。所以讲SparkSQL必须讲Hive。一、Hive...

2018-10-26 22:06:44 519

原创 Ubuntu厦大学生账号链接厦大XMUNET+

 打开  系统设置->网络->无线->XMUNET+输入你的Username和Password就可以了 

2018-10-18 10:26:01 1104

原创 解决Hive的Establishing SSL connection without server's identity verification is not recommended问题

问题描述:hive> Sat Oct 13 15:36:32 CST 2018 WARN: Establishing SSL connection without server's identity verification is not recommended. According to MySQL 5.5.45+, 5.6.26+ and 5.7.6+ requirements SS...

2018-10-13 16:15:45 2359

原创 Hive分析电商数据

最近学习Hive的基本使用,下面就记录一下我学习Hive的一些基本语句数据可以到这里下载:链接: https://pan.baidu.com/s/1RAoicaE7uygtUpdwE-ACtg 提取码: ysrm数据格式:tbDate.txt2003-1-1,200301,2003,1,1,3,1,1,1,12003-1-2,200301,2003,1,2,4,1,1,1,1...

2018-10-13 16:00:33 3669 3

原创 Hive分析搜索引擎的数据

最近学习Hive的基本使用,下面就记录一下我学习Hive的一些基本语句数据格式:(数据可以点击:用户查询日志(SogouQ)下载搜狗实验室的数据,可以根据自己的需要选择数据规模)00:00:00    2982199073774412    [360安全卫士]    8 3    download.it.com.cn/softweb/software/firewall/antiviru...

2018-10-13 11:47:23 1699

原创 4399大数据笔试题

    今天晚上参加了厦门4399公司的大数据笔试,自己没有拍下题目,一下是根据自己在草稿纸上简要记录回忆下写出来的,具体的选项记不起来,大体题目在下面,欢迎大家给出自己的见解答案 一、选择题    1.四个土豪在一次聚会中比拼财产的逻辑推理题。        A:四个人中,B最富。        B:四个人中,C最富。        C:我不是最富有的。        D:C...

2018-10-10 22:29:31 4584 2

原创 Hive基础

一、Hive的历史价值    1.Hive是Hadoop上的Killer Application,Hive是hadoop上的数据仓库,Hive同时 兼具有数据仓库的存储引擎和查询引擎的作用,而SparkSQL是一个更加出色和高级的查询引擎,所以现在在企业级应用中SparkSQL+Hive成为了业界使用大数据最为高效和流行的趋势。    2.Hive是Facebook退出,主要是为了让不懂Ja...

2018-10-10 21:27:15 195

原创 Hadoop链式的MapReduce编程

通过多个Mapper过滤出符合要求的数据输入数据:computer    5000SmartPhone    3000Tablet    15000TV    5000Book    18Clothes    150Gloves    9SmartPhone    3000Tablet    1500computer    5000SmartPhone    3000...

2018-10-10 15:23:06 344

原创 Hadoop MapReduce多维排序

在实际的编程过程中,经常遇到需要对数据进行多维度的排序。数据数据:Spark 100Hadoop 60Kafka 95Spark 99Hadoop 65Kafka 98Spark 99Hadoop 63Kafka 97要求,对key和同一组的value也进行排序输出数据:编程示例:import org.apache.hadoop.conf.Configur...

2018-10-10 11:42:30 238

原创 hadoop MapReduce倒排索引编程

统计每个单词在每个文件中出现的次数输入数据:file1.txtSpark is so powerfulfile2.txtSpark is the most exciting thing happening in big data todayfile3.txtHello Spark Hello again Spark输出格式:代码实现:import or...

2018-10-10 00:45:54 489

原创 hadoop MapReduce自连接算法实现

HHadoop的MapRedcuer自连接实现,找出每个child的grandprent,如Tom是Lucy的child,Lucy是Mary的child,那么Mary是Tom 的grandparent。输入数据:child  parentTom LucyTom JackJone LucyJone JackLucy MaryLucy BenJack AliceJack Je...

2018-10-09 18:06:31 1013

转载 Hadoop MapReduce二次排序算法与实现之实现

转自:一起学Hadoop——二次排序算法的实现二次排序,从字面上可以理解为在对key排序的基础上对key所对应的值value排序,也叫辅助排序。一般情况下,MapReduce框架只对key排序,而不对key所对应的值排序,因此value的排序经常是不固定的。但是我们经常会遇到同时对key和value排序的需求,例如Hadoop权威指南中的求一年的高高气温,key为年份,value为最高气温,年...

2018-10-08 16:16:59 1494 1

原创 Hadoop MapReduce二次排序算法与实现之算法解析

MapReduce二次排序的原理    1.在Mapper阶段,会通过inputFormat的getSplits来把数据集分割成splitpublic abstract class InputFormat<K, V> { public InputFormat() {} public abstract List<InputSplit> getSplits(...

2018-10-08 09:47:05 410

原创 Hadoop Join性能优化

为什么要优化?数据格式address.txt1    America2    China3    Germennumber.txt1    Spark    12    Hadoop    13    Flink    24    Kafka    35    Tachyon    2输出格式:发现程序运行的时候总是没法把结果写到HDFS上,有问...

2018-10-07 22:38:15 240

原创 用Hadoop的MapReduce处理员工信息Join操作

在进行处理员工信息Join编程时,遇到了一点问题,我想先不纠结这个问题了,到后面有时间在慢慢来看这个问题吧输入的数据格式worker.txt    empno   ename   job         mgr hiredate    sal comm    deptno  loc    7499    allen   salesman    7698    1981-02-20  ...

2018-10-07 10:56:35 549

原创 用Hadoop的MapReduce计算框架实战URL流量分析

输入的数据格式:123.13.17.13 - - [25/Aug/2016:00:00:01 +0800] "GET /AppFiles/apk/studynet/icon_v120/apk_80111_1.jpg HTTP/1.1" 206 51934 "http://img.xxx.com:8080/AppFiles/apk/studynet/icon_v120/apk_80111_1.j...

2018-10-06 23:42:49 832

原创 用Hadoop中MapReduce进行TopN排序

数据格式:10,3333,10,10011,9321,1000,29312,3881,701,2013,6974,910,3014,8888,11,39订单ID 用户ID 资费 业务ID在所有订单数据中计算出资费最高的N个订单,按降序排列算法思想:在大量的数据中计算出资费最高的N个订单,为了节省资源和提高计算效率:在众多的Mapper的端,首先计算出自己的TopN,然后在...

2018-10-06 22:02:19 2662

原创 用Hadoop的MapReduce求最大最小值

最近在系统学习大数据知识,学了没有记录过几天又忘光了,所以把学习内容记录下来,方便以后查看 找出数据中的最大值和最小值输入数据格式:   4568    2    6598    2222222    8899    3    7    9    1    0    56    96    564    145    231    8899    889...

2018-10-06 18:56:59 6847 1

原创 用Hadoop的MapReduce求平均值

最近在系统学习大数据知识,学了没有记录过几天又忘光了,所以把学习内容记录下来,方便以后查看 import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.FloatWritable;import org.apache.hadoop.io....

2018-10-06 18:52:02 1176

原创 使用Hadoop的MapReduce实现数据排序

最近想系统学习大数据知识,在观看视频编写代码的时候,在数据排序的时候,出现了一些问题,一致于弄了好久才找到原因,现在记录下来,方便查看数据输入格式:按照我的代码逻辑,应该输出数据为在代码处理时,计算结果却是没有输出输入的数据,而是输出最后保存在HDFS上的数据只是1    12    23    34    45    56    67    7...

2018-10-06 16:20:33 15327 4

原创 使用Hadoop的MapReduce来实现数据去重

最近在系统学习大数据知识,学了没有记录过几天又忘光了,所以把学习内容记录下来,方便以后查看 import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Tex...

2018-10-06 15:48:42 1555

原创 用Hadoop的MapReduce气象数据编程

一:数据格式分析    1.数据(下载地址:ftp://ftp.ncdc.noaa.gov/pub/data/noaa)    0067011990999991950051507004888888889999999N9+00001+9999999999999999999999    0067011990999991950051512004888888889999999N9+00221+99...

2018-10-06 00:41:11 2676 3

原创 Linux scp命令

Linux 命令大全Linux scp命令用于Linux之间复制文件和目录。scp是 secure copy的缩写, scp是linux系统下基于ssh登陆进行安全的远程文件拷贝命令。语法scp [-1246BCpqrv] [-c cipher] [-F ssh_config] [-i identity_file][-l limit] [-o ssh_option] [-P p...

2018-10-05 22:51:33 161

goods_detail.txt

最近学习安卓逆向,接触一下TB系的APP,了解大厂APP是做数据安全的,这篇文章主要介绍某宝APP的签名参数x-sign的HOOK过程,当然,其他的参数也是可以HOOK的。本文只用于学习交流,请勿他用。商品详情信息

2020-11-27

goods_ids.txt

最近学习安卓逆向,接触一下TB系的APP,了解大厂APP是做数据安全的,这篇文章主要介绍某宝APP的签名参数x-sign的HOOK过程,当然,其他的参数也是可以HOOK的。本文只用于学习交流,请勿他用。采集的商品id。

2020-11-27

user_base_info.json

Spark大型电商项目-用户活跃度分析模块-数据

2019-08-05

user_action_log.json

Spark大型电商项目-用户活跃度分析模块-数据

2019-08-05

area_top3_product.sql

MySQL中 area_top3_product表,task_id、area、area_level、product_id、city_names、click_count、product_name、product_status

2019-04-01

city_info.sql

各区域热门商品统计数据设计表,使用Spark SQL从MySQL中查询出来城市信息(city_id、city_name、area),用户访问行为数据要跟城市信息进行join,city_id、city_name、area、product_id,RDD,转换成DataFrame,注册成一个临时表

2019-04-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除