啜晓伟-CSDN博客

原创《Hadoop权威指南》学习笔记（7）——Hadoop的I/O操作（3）

这是Hadoop的I/O操作的最后一部分了。这一部分的主要内容是用来存储文件数据的数据结构。关于SequenceFileHadoop 的SequenceFile类为二进制键值对提供了一个持久数据结构，对于不适合用纯文本记录的二进制类型日志文件非常合适。HDFS 和 MapReduce 是针对大文件优化的，所以通过SequenceFIle类将小文件包装起来，可以获得更高效率的存储和处理。SequenceFile的写操作通过createWriter()方法可以创建SequenceFile对象，并返回

2020-08-01 15:09:04 250

原创《Hadoop权威指南》学习笔记（6）——Hadoop的I/O操作（2）

序列化这一部分的主要内容是序列化。概念所谓序列化是指将结构化对象转化为字节流以便在网络上串数或写到磁盘进行永久存储的过程。相应的，既然有序列化，就一定有反序列化。反序列化是指将字节流转回结构化对象的逆过程。序列化用于分布式数据处理的两大领域：进程间通信和永久存储。在 Hadoop 中，系统中多个节点上进程间的通信是通过“远程过程调用”（RPC）实现的。RPC 协议将消息序列化成二进制流后发送到远程节点，远程节点接着将二进制流反序列化为原始消息。RPC 序列化格式有以下几个属性：紧凑；快速；

2020-07-30 20:58:36 306

原创《Hadoop权威指南》学习笔记（5）——Hadoop的I/O操作（1）

因为这部分内容比较多，所以打算把这部分分成三次来写。第一部分是关于数据完整性和数据的压缩。数据完整性首先要了解的是，当系统中需要处理的数据量很大，达到Hadoop的处理极限时，数据会有较高的被损坏概率。检测数据是否损坏的常见措施是——校验和。在数据第一次引入系统以及通过不可靠通道进行传输时分别计算校验和，并判断其是否匹配，若不匹配，则认为数据已损坏。需要注意的是，校验和也有可能会损坏，但因为校验和很小，所以损坏的可能性也很小。常用的错误检测码是CRC-32（32位循环冗余校验）。Hadoop C

2020-07-20 12:45:46 308 1

原创《Hadoop权威指南》学习笔记（4）——关于YARN

Apache YARN（Yet Another Resource Negotiator的缩写）是Hadoop的集群资源管理系统。YARN运行在集群存储层（HDFS和HBase）上，一些分布式计算框架（如MapReduce和Spark等）作为YARN应用运行在集群计算层（YARN）和集群存储层上。YARN运行机制YARN通过两类长期运行的守护进程提供自己的核心服务：1、管理集群上资源使用的资源管理器2、运行在集群中所有节点上且能够启动和监控容器的节点管理器。其中容器用于执行特定应用程序的进程。下

2020-07-15 22:03:35 468

原创《Hadoop权威指南》学习笔记（3）——Hadoop分布式文件系统

Hadoop分布式文件系统，即HDFS(Hadoop Distributed FileSystem)。HDFS的设计1、存储超大文件（指大小为几百MB、几百GB甚至几百TB大小的文件）2、流式数据访问：一次写入、多次读取，这是一种比较高效的访问方式。这是因为数据分析往往是先读入一个数据集，然后长期在其上进行各种分析，所以读取整个数据集的时间延迟更为重要。3、时间延迟较高，不适合要求低时间延迟数据访问的应用，因为它是为高数据吞吐量应用优化的。4、HDFS中的文件只支持单个写入者，并且写操作总以“只添

2020-07-10 13:28:24 424

原创《Hadoop权威指南》学习笔记（2）——Hadoop在Linux上的配置

这一篇文章主要是对上一篇的一个补充。因为虽然上一篇写了Java程序以及MapReduce的原理等，但是如果没有成功安装hadoop的话，一切都是白搭，所以这篇文章主要记录一下Hadoop在Ubuntu上的安装。安装环境：Vmware Workstation 15， Ubuntu 18.04安装内容：Java jdk1.8，hadoop-2.7.1Java jdk的安装这个比较简单，与在Windows上安装是一样的，不过以前在官网可以直接下载，现在好像必须要用Oracle账号登录才能下载。需要注意的

2020-07-03 20:55:14 220

原创数据挖掘课程大作业——Clustering-by-fast-search-and-find-of-density-peaks研究报告

比较懒，所以不重新排版了，直接将报告截图了过来。文章中提到的数据、程序和结果链接放到这里了：https://github.com/iamchuo/Simple-realization-of-Clustering-by-fast-search-and-find-of-density-peaks如果有用的话希望可以给个star，感谢。...

2020-05-09 17:35:54 1934 5

原创《Hadoop权威指南》学习笔记（1）——初始Hadoop及了解MapReduce

注：因为Hadoop中的代码实现用java较为方便，并且书中代码用java实现的解释较为容易理解，所以，在博客中的代码实现均会使用java。第1章初识Hadoop我们为什么需要Hadoop我们生活在一个数据爆炸的时代，现代每天产生的数据量甚至要超过从商周到清代产生的数据的总和。在这样一个时代，数据即是机遇，如何存储更多的数据，如何快速的对数据进行分析提取，就成了一个无法避免的问题。此外，...

2020-04-14 21:55:21 288

原创每天学习一点新知识（三）——用文字来填充一段视频

每天学习一点新知识（三）——用文字来填充一段视频接着上次用文字组成一张图片，这一次来解释一下用文字填充一段视频的代码。准备工作什么的就不说了，和上次都一样。直接上代码，解释代码就好了。话不多说，直接开始要达到我们的目的，需要写三个py文件，分别实现三个步骤。1、将视频按帧拆分成图片import cv2import os#要提取视频的文件名，隐藏后缀sourceFileName=...

2020-04-10 17:22:39 291

原创每天学习一点新知识（二）——用文字来构成一张图片

每天学习一点新知识（二）——用文字来构成一张图片因为疫情的原因，明明已经到了武汉樱花开放的季节，却无法前去观赏，于是前些天一位武大学生用Python敲出了一朵樱花的延时开放。于是我就想，我可不可以也尝试着去做一下。为了循序渐进，本篇博客先对图片进行处理，之后会另写一篇对视频处理的。那么下面我们就正式开始吧。准备工作PyCharm，以及一些相应的库（稍后到代码中会详细介绍）一张图片先从...

2020-03-28 16:18:14 1395 1

原创每天学习一点新知识（一）——Unity开发游戏的拆包

每天学习一点新知识（一）——Unity开发游戏的解包用了CSDN有一段时间了，但一直都没有写过blog，只是在输入，没有输出。而且一直主要都是在查一些作业、题解什么的，还是希望自己能够多学到一些新东西吧，不管是语言也好，技术也好，提高自己就可以。所以打算写这么一个系列，就是每天学一点新知识、每天有一点提高。可能其中主要的还是学习一些CSDN和Github上的小项目，争取每周写一篇，如果简单的话...

2020-03-22 17:20:17 24540 13