stpeace的专栏

接纳自己,提升认知,拥抱不确定性。

排序:
默认
按更新时间
按访问量

hbase shell基本操作简介

      之前介绍了hbase的安装, 现在来简介下hbase的基本操作:      1. 启动hbasestart-hbase.sh     启动后, 可以在页面http://ip:16010上看到hbase的相关信息, 其中ip就是安装hbase的机器的ip      2. 停止hbases...

2018-03-01 22:08:06

阅读数:2440

评论数:0

linux环境安装hbase------不一定需要hadoop

      hbase是分布式的,面向列(族)的数据库, 很常用, 网上介绍一大堆。本文说说在linux环境中安装hbase. 一般来说,都是需要先安装hadoop, 再安装hbase. 但是, 为了简便起见, 也可以先不管hadoop, 先聚焦于hbase, 照样可以玩hbase.      0...

2018-03-01 21:46:02

阅读数:3039

评论数:0

linux环境安装单机版spark------不一定需要hadoop

       大数据持续升温, 不熟悉几个大数据组件, 连装逼的口头禅都没有。 最起码, 你要会说个hadoop, hdfs, mapreduce, yarn, kafka, spark, zookeeper, neo4j吧, 这些都是装逼的必备技能。       关于spark的详细介绍, 网上...

2018-02-02 20:50:14

阅读数:4963

评论数:0

linux环境搭建图数据库neo4j

Neo4j(Nosql之一)是一个高性能的图数据库(不支持分布式), 在社交关系中经常用到。关于Neo4j的介绍,网上多的是, 故不再赘述。来简要说说安装:        1.   安装jdk,  不多说: ubuntu@VM-0-15-ubuntu:~$ java -version op...

2018-02-02 19:25:22

阅读数:4220

评论数:0

大数据组件图谱---比较齐全

转载地址:http://blog.csdn.net/u010039929/article/details/70157376 大数据组件图谱 文件系统数据存储内存技术数据搜集消息系统数据处理查询引擎分析和报告工具调度与管理服务机器学习开发平台 ...

2018-02-01 20:01:44

阅读数:6556

评论数:0

什么是分布式数据库中的CAP理论(容易误解)?------内附CAP原则下的常用数据库

网上有很多关于CAP理论的介绍, 感觉很多文章没有说清楚, 本想写一篇文章来介绍一下, 但我发现wiki上的介绍更好, 所以直接引用过来(红色的中文是我的注解): In theoretical computer science, the CAP theorem, also named...

2018-01-24 22:26:41

阅读数:4250

评论数:0

浅谈分布式数据库

首先来看图:       这就是一个分布式数据库, 数据是存在于各地的, 在物理上分离, 但在逻辑上, 他们是一个整体, 整体对外具有透明性,也就是说, 使用这个分布式数据库的人根本就不知道这个数据库是分布式的还是非分布式的, 也不需要了解。       跟传统的单机集中式数据库相比,...

2018-01-24 21:31:26

阅读数:4158

评论数:0

集群(cluster)和distributed(分布式)有什么区别?

很多人以为, 把多个计算机堆积在一起,就成了集群。 在很多场合, 你会看到分布式集群这样的字眼, 其实, 这是不太准确的。集群和分布式还是有差别的, 鉴于是舶来品,搜cluster和distributed两个字的具体含义, 会有更加清晰的答案。        集群:  众多相同的业务,部署在众多...

2018-01-23 20:28:00

阅读数:4671

评论数:0

《智能时代》吴军

这是一本非常好的书, 值得读一读。       很早很早以前, 我就在思考并认同这样一个道理: 世界是确定的,遵循牛顿定律。 后来学到概率论和信息论, 我是有些反感的, 觉得这是不确定的玄乎东西, 没有数学依据, 后来看到了概率的公理化定义和香农对信息的定义, 才对概率论和信息论产生了敬畏。 后...

2018-01-13 15:46:56

阅读数:4303

评论数:0

《Hadoop基础教程》之初识Hadoop

转载地址:http://blessht.iteye.com/blog/2095675        Hadoop一直是我想学习的技术,正巧最近项目组要做电子商城,我就开始研究Hadoop,虽然最后鉴定Hadoop不适用我们的项目,但是我会继续研究下去,技多不压身。      《Hadoo...

2017-11-25 15:30:19

阅读数:4636

评论数:4

linux(ubuntu)下安装和启动kafka以及若干坑

今天来玩玩kafka, 有点意思。         1.  下载二进制的kafka安装包, 地址:http://kafka.apache.org/downloads.html,  以kafka_2.10-0.9.0.0.tgz为例吧, 下载后, 如下: ubuntu@VM-0-13-u...

2017-11-24 19:47:54

阅读数:6629

评论数:0

满大街都是这种烂题目------从100亿个整数中找出最大的1000个整数

不得不说, 这年头, 满大街都是类似这种烂题目------从100亿个整数中找出最大的1000个整数。        注意点: 内存装不下, 不能一次读到内存。        思路: 随便抽出1000个数, 假设他们是最大的1000个, 然后把剩余的数往其中加, 接着在这1001个数据中淘汰最小的...

2017-09-02 11:02:35

阅读数:4936

评论数:2

深度剖析hdfs原理

转载地址:http://www.cnblogs.com/tgzhu/p/5788634.html              在配置hbase集群将 hdfs 挂接到其它镜像盘时,有不少困惑的地方,结合以前的资料再次学习;  大数据底层技术的三大基石起源于Google在2006年之前的三篇论文...

2017-07-01 16:07:29

阅读数:4861

评论数:0

MapReduce原理与设计思想

转载地址:http://blog.jobbole.com/80619/ 简单解释 MapReduce 算法 一个有趣的例子 你想数出一摞牌中有多少张黑桃。直观方式是一张一张检查并且数出有多少张是黑桃? MapReduce方法则是: 给在座的所有玩家中分配这摞牌让每个玩家数...

2017-07-01 16:04:26

阅读数:4960

评论数:0

linux中split命令的重要用途------文件分割

最近准备写个文件分割的工具, 跟同事交流后, 发现linux早已提供了这个命令,来一起看下: taoge@localhost Desktop> ls a.txt taoge@localhost Desktop> cat a.txt 3576661317 3577352199 3577...

2016-12-24 08:24:33

阅读数:5422

评论数:0

扯淡冷热数据------顺便谈谈高效阶乘

什么叫热数据呢? 热数据就是经常访问的数据。在学生时代, 每次考试, 我们都需要记住大量的公式, 而为什么不每次考试的时候去现场推导公式呢? 因为耗时。 在这个例子中, 公式就是热数据, 直接获取热数据, 可以省很多时间。 人人皆知。然而, 人的记忆能力和精力毕竟是有限的, 对于一些偏门的、万年碰...

2016-05-21 00:03:30

阅读数:5923

评论数:3

进入信息爆炸时代,大数据产业应运而生

作者: 袁萌         地址:http://blog.csdn.net/yuanmeng001/article/details/48366977   进入信息爆炸时代,大数据产业应运而生 进入信息爆炸时代,大数据产业应运而生 2011年,一项由EMC赞助,IDC进...

2015-09-20 19:40:31

阅读数:5275

评论数:1

提示
确定要删除当前文章?
取消 删除
关闭
关闭