2018年09月_沼泽鱼97

09月 08月 07月

原创 spark学习（二）RDD和DAG

一、sparkRDD概念RDD（Resilient Distributed Dataset）叫做弹性分布式数据集,是spark中最基本也是最重要的概念之一。它是spark中一种基本的数据抽象，有容错机制并可以被并行操作的元素集合，具有只读、分区、容错、高效、无需物化、可以缓存、RDD依赖等特征。RDD的知识较为庞杂，这里只能按我了解的做一些简单介绍。二、一些基本的熟悉和概念1、part...

2018-09-28 00:03:16 3287 1

原创 Spark学习（一）Spark介绍

一、什么是sparkspark是基于内存计算的大数据并行计算框架，也是hadoop中的mapreduce的替代方案，但和mapreduce又有许多不同。 Spark包含了大数据领域常见的各种计算框架：比如Spark Core用于离线计算，Spark SQL用于交互式查询，Spark Streaming用于实时流式计算，Spark MLlib用于机器学习，Spark GraphX用...

2018-09-27 22:13:55 3489

原创电商大数据分析平台（三）nginx配置及flume读取日志信息

一、nginx配置在本项目中nginx的作用只是接收客户端发送的事件，并将相应的session写入日志文件中，所以配置较为简单，只需要配置写入的日志文件和写入的格式1.地址配置 server { listen 80; location = /index{ ...

2018-09-16 11:18:25 1271

原创电商大数据分析平台（二）js sdk的编写

一、简介编写一个js的sdk，用以嵌入待分析的页面中，当用户访问到该页面上时，自动调用该段js代码，获取用户浏览器上的cookie信息，拼装成一段session信息，发送到我的nginx服务器上。二、执行流程如图，用户访问页面时，首先判断用户的会话是否过期，未过期则调用pageView方法发送到nginx服务器，若过期，则判断是否第一次访问，是则创建用户标识并创建对话发送launc...

2018-09-15 17:33:45 1385

原创电商大数据分析平台项目（一）项目框架

一、项目简介这段时间自己从网上找了一个项目课程，学着做了一个电商大数据分析平台，不过较为简陋，知识作学习用。项目环境：windows10+hadoop2.7.7+hbase2.1.0+flume1.7.0+nginx+3台linux虚拟机（三台虚拟机搭建一个hadoop完全分布式集群，同将主节点配置nginx服务器）项目需求：对给定时间段内登陆过某网站的用户进行统计分析，具体包括不同条...

2018-09-15 16:03:09 6841

一、UNIX文件系统的基本原理 UNIX采用树型目录结构，每个目录表称为一个目录文件。一个目录文件是由目录项组成的。每个目录项包含16B，一个辅存磁盘块(512B)包含32个目录项。在目录项中，第1、2字节为相应文件的外存i节点号，是该文件的内部标识；后14B为文件名，是该文件的外部标识。所以，文件目录项记录了文件内、外部标识的对照关系。根据文件名可以找到辅存i节点号，由此便得到该文件的所有者、存取权、文件数据的地址健在等信息。UNIX的存储介质以512B为单位划分为块，从0开始直到最大容量并顺序加以编号就成了一个文件卷，也叫文件系统。本次课程设计是要实现一个简单的模拟UNIX文件系统。我们在磁盘中申请一个二进制文件模拟UNIX内存，依次初始化建立位示图区，I节点区，数据块区。二、基本要点思路 1、模拟磁盘块的实现：因为文件系统需要从磁盘中读取数据操作数据，在实现时是使用文件来模拟磁盘，一个文件是一块磁盘，在文件中以划分磁盘块那样划分不同的区域，主要有三个区域：位图区，inode索引节点区，磁盘块区。位图区我是使用一个512byte的数组存放，inode区和磁盘块区我采用一种自认为比较巧妙的方法，就是存放对象列表，之前说过，在本次实验的所有的结构都使用对象进行存储，而inode节点和磁盘块就是两个重要的数据结构，在初始化时我实例化32个inode对象和512个block对象（至于这些类的具体定义下面会提到），然后将这些对象加入各自对应的对象列表中，在存储时，使用java的对象序列化技术将这个对象数组存到磁盘中。当使用文件系统时，程序会先从磁盘文件中读取出位图数组，inode对象列表，block对象列表，之后的操作就是通过对这些列表进行修改来实现。使用这种方法可以减小存储的空间（对象序列话技术）而且不需要在使用时进行无用的查找，只要第一次初始化中将这些对象都读取出来。 2、界面的实现：在实现这个文件系统时使用了两种方案，一种是直接在java控制台来进行输入输出，因为原本想着UNIX文件系统原本也是使用的命令行语句，所以在控制台上实现也很接近。后来在老师的建议下又将整个程序重新修改，改成在UI界面上进行输入输出，这样确实界面美观舒服了不少，只不过两者用的技术很不一样，前者主要使用的是系统的输入输出流，后者使用java监听器。 3、权限的实现：在实现多用户的权限方面，我给文件和文件夹各定义了三级权限1、访问：在文件中是可以查看文件的内容，在文件夹中是可以进入该文件夹。2、修改：文件中是可以对文件进行编辑，文件夹中是可以在该文件夹中创建新的文件或目录。3、删除：顾名思义。文件或文件夹的创建者拥有最高级别的权限，只有拥有最高级权限的用户才可以给其他用户针对该文件或文件夹进行授权和授权操作。在每次对文件或文件夹进行访问修改删除操作时都会检查当前用户在该文件或文件夹所拥有的权限，只有拥有的权限大于想要实现的权限时才可以进行该操作。

2018-07-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

weixin_40535323的博客

原创 spark学习（二）RDD和DAG

原创 Spark学习（一）Spark介绍

原创电商大数据分析平台（三）nginx配置及flume读取日志信息

原创电商大数据分析平台（二）js sdk的编写

原创电商大数据分析平台项目（一）项目框架

java实现的仿UNIX操作系统课设

空空如也

原创 spark学习（二）RDD和DAG

原创 Spark学习（一）Spark介绍

原创 电商大数据分析平台（三）nginx配置及flume读取日志信息

原创 电商大数据分析平台（二）js sdk的编写

原创 电商大数据分析平台项目（一）项目框架

java实现的仿UNIX操作系统课设

空空如也

原创电商大数据分析平台（三）nginx配置及flume读取日志信息

原创电商大数据分析平台（二）js sdk的编写

原创电商大数据分析平台项目（一）项目框架