自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 Spark的内存模型

Spark的内存模型详细了解说明了由于kafka内存管理记录的内存使用量不能精确计算导致OOM高发内存模型分为静态内存管理&统一内存管理,使用spark.memory.useLegacyMode来配置,在1.6前的静态内存管理StaticMemoryManager统一内存管理UnifiedMemoryManager内存动态占用机制...

2019-11-23 13:23:28 166

原创 scala中Nil,Null,None,Nothing的区别

NothingNothing是所有类型的子类,它没有对象,但是可以定义类型,如果一个类型抛出异常,那这个返回值类型就是NothingNullNull是AnyRef的子类(引用类型) null是Null唯一的对象NoneNone是Option的一个子类,一个Some集合,一个None,如果Option中没有值,则返回NoneNilNil是一个空List,定义为List[Nothing]...

2019-11-14 14:07:00 397

原创 TCP和UDP的区别

TCP与UDP区别总结:1、TCP面向连接(如打电话要先拨号建立连接);UDP是无连接的,即发送数据之前不需要建立连接2、TCP提供可靠的服务。也就是说,通过TCP连接传送的数据,无差错,不丢失,不重复,且按序到达;UDP尽最大努力交付,即不保证可靠交付3、TCP面向字节流,实际上是TCP把数据看成一连串无结构的字节流;UDP是面向报文的UDP没有拥塞控制,因此网络出现拥塞不会使源主机的发...

2019-11-14 14:02:28 96

原创 海量日志数据,提取出某日访问百度次数最多的那个IP

题目:海量日志数据,提取出某日访问百度次数最多的那个IP。算法思想:分而治之+Hash1.IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理;2.可以考虑采用“分而治之”的思想,按照IP地址的hash(ip)%1024,把海量IP日志分别存储到1024个小文件中。这样,每个小文件最多包含4MB个IP地址;3.对于每个小文件,可以构建一个ip为key,出现次数为valu...

2019-11-13 14:39:46 277

原创 flink是什么

01-Flink是什么背景​ 2010年到2014年,由柏林工业大学、柏林洪堡大学和哈所普特拉纳研究所联合发起名为“Stratosphere”的研究项目;早期主要关注批处理;2014年4月,Stratosphere代码被贡献给Apache软件基金会,称为Apache基金还孵化器项目。在项目孵化期间,更名为Flink。Flink在德语中是快速和灵敏的意思,用棕红色松鼠作为Flink项目Logo,...

2019-11-12 14:48:52 228

原创 Hive、Hbase、mysql区别

Hive是为了简化编写MapReduce程序而生的,使用MapReduce做过数据分析的人都知道,很多分析程序除业务逻辑不同外,程序流程基本一样。在这种情况下,就需要Hive这样的用戶编程接口。Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce,Hive中的表纯逻辑,就是些表的定义等,也就是表的元数据。使用SQL实现Hive是因为SQL大家都熟悉,转换成本低,类似作用的Pig就...

2019-11-12 14:37:07 124

原创 Shuffle机制

注:默认分区是根据key的hashCode和Integer.MAX_VALUE进行与运算对ReduceTasks个数取模得到的。用户没法控制哪个key存储到哪个分区。

2019-11-12 14:27:46 119

原创 java爬取任何指定网页得数据

通过java中的.net包抓取网页上的数据,并且自动生成文件,详细代码如下:import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.FileWriter;import java.io.IOException;import java.io.InputStreamReader;import jav...

2019-11-12 14:10:52 442

原创 Java通过jsoup解析整个网站需要的内容

接上上一篇爬取起点小说网的内容说,上一篇只是获取小说名、章节以及章节链接,然后总是感觉不太好,并不能达到获取到整个网站的效果,用户在用时还得自己联网,故改进了改进,这一篇讲能够完全解析小说网,直到解析到内容为止。 与上一篇思路是一样的,不同的是,在解析时用递归的方式,将获取到这个链接传值到下一个解析入口,层层解析。与上一篇代码不同的是SpilderNovel中的代码,这一篇将只粘贴这一块的代码,...

2019-11-12 14:07:16 110

原创 ubuntu换源为阿里云源

切换目录到/etc/apt/目录下:备份sources.list文件:sudo cp sources.list sources.list.bak然后执行换源脚本(在当前路径下:sudo ./sources.sh),脚本下载路径(http://download.csdn.net/download/qq_34307723/10012547),然后执行sudo apt upgrade更新软件。...

2019-11-12 14:05:18 74

原创 java求解水仙花数

直接在某OJ平台上粘贴他的要求过来,水仙花数的要求也基本都是那样的,本地是能够跑的,只是OJ平台上对空格的处理还有点问题。题目描述春天是鲜花的季节,水仙花就是其中最迷人的代表,数学上有个水仙花数,他是这样定义的: “水仙花数”是指一个三位数,它的各位数字的立方和等于其本身,比如:153=13+53+3^3。 现在要求输出所有在m和n范围内的水仙花数。输入描述:输入数据有多组,每组占一行...

2019-11-12 13:37:17 277

原创 CentOS7.X安装MySQL5.7数据库概述

CentOS7.X安装MySQL5.7数据库设置rpm下载目录在/opt目录下新建一个目录存放mysqlcd /optsudo mkdir mysql在这里插入代码片下载MySQL的源wget http://repo.mysql.com/mysql57-community-release-el7-8.noarch.rpm如果在这之前没有提示-bash: wget: command ...

2019-11-12 13:31:31 76

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除