大数据
majiashu
这个作者很懒,什么都没留下…
展开
-
mesos集群模式安装部署
该文章通过yam的方式进行安装部署架构项目 | Value-------- | -----电脑 | $1600手机 | $12导管 | $1Column 1Column 2centered 文本居中right-aligned 文本居右首先配置yum源yum install http://repos.mesosphere.io/el/7/noarch/RPMS/mesosphere-el-repo-7-1.noarch.rpm...原创 2021-09-14 19:20:04 · 560 阅读 · 0 评论 -
HBase知识点
1. HBase简介1.1 定义Apache HBase™是Hadoop数据库,这是一个分布式,可扩展的大数据NoSQL数据库。1.2 架构图角色作用:1)HMasterHMaster是所有Region Server的管理者为region server 分配region;负责region server的负载均衡,region分裂完成监控;处理schema更新请求,数据表的创建,更新;HDFS上的垃圾文件回收;发现失效的region server并重新分配上面的region;2)原创 2020-09-16 16:52:08 · 529 阅读 · 0 评论 -
docker部署mongo
目录一.docker相关操作二.docker安装mongo步骤三.docker镜像的保存save、加载load一.docker相关操作docker容器删除镜像:1.停止所有的container,这样才能够删除其中的images:docker stop $(docker ps -a -q)如果想要删除所有container的话再加一个指令:docker rm $(dock...原创 2019-01-07 15:32:46 · 2615 阅读 · 0 评论 -
【算法】--海量日志数据,提取出某日访问次数最多的那个IP
转自 https://github.com/yoghurtjia/-python-BAT-/blob/master/most_common_ip.py海量日志数据,提取出某日访问次数最多的那个IP解决思路:因为问题中提到了是海量数据,所以我们想把所有的日志数据读入内存,再去排序,找到出现次数最多的,显然行不通了。这里我们假设内存足够,我们可以仅仅只用几行代码,就可以求出最终的结果 代...转载 2018-10-29 15:19:53 · 1760 阅读 · 0 评论 -
【Hadoop】--HDFS介绍
目录一、什么是HDFS二、HDFS的特点三、HDFS的读写过程四、HDFS的常用指令一、什么是HDFSHDFS是基于Java的分布式文件系统,允许您在Hadoop集群中的多个节点上存储大量数据。它专门存储超大数据文件,为整个Hadoop生态圈提供了基础的存储服务HDFS是一个主/从(Master/Slave)体系架构,由于分布式存储的性质,集群拥有两类节点Name...原创 2018-10-23 10:48:53 · 4424 阅读 · 0 评论 -
【Spark】--Spark中RDD的理解
1.什么是RDD?RDD:RDD是Spark的计算模型 RDD(Resilient Distributed Dataset)叫做弹性的分布式数据集合,是Spark中最基本的数据抽象,它代表一个不可变、只读的,被分区的数据集。操作RDD就像操作本地集合一样,数据会被分散到多台机器中(以分区为单位)。&nb...转载 2018-10-23 09:46:09 · 353 阅读 · 0 评论 -
【Spark】--Spark中的宽窄依赖和Stage的划分
一、前述RDD之间有一系列的依赖关系,依赖关系又分为窄依赖和宽依赖。Spark中的Stage其实就是一组并行的任务,任务是一个个的task 。二、具体细节 窄依赖父RDD和子RDD partition之间的关系是一对一的。或者父RDD一个partition只对应一个子RDD的partition情况下的父RDD和子RDD partition关系是多对一的。...转载 2018-10-23 09:39:35 · 322 阅读 · 0 评论 -
5类系统推荐算法
转 5类系统推荐算法,非常好使,非常全 ...转载 2018-09-10 11:49:44 · 233 阅读 · 0 评论 -
Hadoop之HDFS核心知识点
初步掌握HDFS的架构及原理 原文链接:https://www.cnblogs.com/codeOfLife/p/5375120.html 目录 HDFS 是做什么的HDFS 从何而来为什么选择 H...转载 2018-09-11 14:08:53 · 1062 阅读 · 0 评论 -
Hadoop之 MapReduce 的核心知识点
mapreduce什么是mapreduce ? MapReduce是一种编程模型,用于大规模数据集的并行运算。概念”Map(映射)”和”Reduce(归约)”,是它们的主要思想,。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对(Mappe...转载 2018-09-11 13:51:06 · 1194 阅读 · 0 评论 -
HDFS相关知识点
深刻理解HDFS工作机制 深入理解一个技术的工作机制是灵活运用和快速解决问题的根本方法,也是唯一途径。对于HDFS来说除了要明白它的应用场景和用法以及通用分布式架构之外更重要的是理解关键步骤的原理和实现细节。在看这篇博文之前需要对HDFS以及分布...转载 2018-07-04 11:51:55 · 473 阅读 · 0 评论 -
《Hadoop管理一》checkpoint原理和过程
from http://www.cnblogs.com/hanyuanbo/archive/2012/07/25/2608698.html理解这两个概念,对于理解Hadoop是如何管理备份,Secondary Namenode、Checkpoint Namenode和Backup Node如何工作的很重要。fsimage:文件是文件系统元数据的一个永久性检查点,包含文件系统中的所有目录和文件idn...转载 2018-05-21 16:29:49 · 1540 阅读 · 0 评论