大数据
时冲
这个作者很懒,什么都没留下…
展开
-
hadoop SecondNamenode
SecondNamenode名字看起来很象是对第二个Namenode,要么与Namenode一样同时对外提供服务,要么相当于Namenode的HA。真正的了解了SecondNamenode以后,才发现事实并不是这样的。下面这段是Hadoop对SecondNamenode的准确定义:SecondNamenode是对主Namenode的一个补充,它会周期的执行对HDFS元数据的检查点。原创 2016-04-07 15:21:27 · 387 阅读 · 0 评论 -
高可用
1 一个网卡 可以虚拟多个网口2 mac地址和ip地址修改参数目的是为了隐藏vip影响速度的一个主要原因就是io,解决io上线,io瓶颈。所以要对io进行分流,于是对相应进行分流,(因为一般来说请求的数据量非常少,相应的的数据量是非常)centos 查看io占用情况 yum install -y sysstatiostat -x 1 10查看实时流量/u原创 2016-03-25 20:58:35 · 947 阅读 · 0 评论 -
hadoop_1_完全分布式
JAVA_HOME=/usr/java/jdk1.7.0_71export JAVA_HOME=${JAVA_HOME}export HADOOP_PREFIX=/home/hadoop-2.5.1 # 这个先不管,应该是mepredios中用配置etc文件完后重新启动关闭防火墙开机启动echo "service iptables stop" >> .bas原创 2016-04-01 15:42:25 · 292 阅读 · 0 评论 -
hadoop_2_完全分布式高可用
1 hadoop 中的高可用,后面所有内容都在高可用中2 HDFS 的高可用,针对namenode(管理节点) 当namenode内存受限时,增加namenode节点叫HDFS的联邦 3 HDFS HA namenode 高可用,zookeeper 主、备4 hadoop2.0 完全分布式 高可用,注意与keepalived不同的原创 2016-04-01 15:43:45 · 654 阅读 · 0 评论 -
hadoop_案例_1
执行程序的3中方式: 1、直接在服务器上,mapreduce的执行环境是yarn,要打成jar包,放到环境里 使用命令的方式调用,执行过程也在服务器上 a、通过: hadoop jar jar路径 类的全限定名 这个命令会把jar自动提交到服务器上运行 2、在本地直接调用,执行过程在服务器上 a、首先在src下放置服务器上的原创 2016-04-20 17:43:40 · 384 阅读 · 0 评论 -
hadoop_案例_2
三个案例都是关于算法的1 Pagerank算法,网页排名 PR值,是谷歌的算法(hadoop就是从gugool出来的) 是用来做搜索结果排序的 PR值是通过pagerank算出来的 百度 站长工具 京东是7(后面省略小数) 只有百度和google是10 google把A页面到B页面的连接叫做 A页面对B页面的投票,投票就是超链接 如原创 2016-04-20 17:46:05 · 644 阅读 · 0 评论 -
机器学习
1 机器学习的子类是深度学习,机器学习的父类是人工智能,核心都是机器学习。 百度大脑、谷歌大脑等都属机器学习,百度和谷歌数据量都大所以才会有百度大脑谷歌大脑2 机器学习,我只要有大量数据,我去训练,我就可以训练出一个好的模型,而且这个模型就可以做预测,预测和分类是分不开的3 机器学习就是 拟人 拟人 : 1 大量已有的数据(经原创 2016-05-06 15:24:51 · 725 阅读 · 0 评论 -
zookeeper
1 ZooKeeper 它是一个为分布式协调服务,那么它提供了一个分布式锁服务,用以协调其他分布式的应用。 它是Google的Chubby一个开源的实现,Google的项目一般不开源,因为开源后别人也用不了,它的服务节点都非常之大 ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。 Zo原创 2016-05-06 15:23:42 · 669 阅读 · 0 评论 -
CDH
1 ping www.baidu.com2 修改hosts文件3 关闭防火墙4 互相免密登录,注意自己对自己的免密 ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys scp ~/.ssh/id原创 2016-05-06 15:27:47 · 1330 阅读 · 0 评论 -
Hive
1 hadoop 的mapreduce是分布式的计算框架2 解决不会java但还要用mapreduce。hive 非java编程者对hdfs的数据做类似mapreduce的操作3 把sql翻译成mapreduce任务,提交给hadoop集群来执行4 由于hive是把sql翻译成mapreduce任务,那么 1 得有数据仓库(表)只用来原创 2016-05-06 15:29:38 · 559 阅读 · 0 评论 -
HIVE和HBASE区别
1. 两者分别是什么? Apache Hive是数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询--因为它是基于MapReduce算法。 Apache HBase Key/Value,基础单元是cell,它运行在HDFS之上。原创 2016-05-21 22:03:58 · 441 阅读 · 0 评论 -
记录一次MongoDB3.0.6版本wiredtiger与MMAPv1引擎的写入耗时对比
MongoDB3.0.x的版本特性(相对于MongoDB2.6及以下): 增加了wiredtiger引擎: 开源的存储引擎; 支持多核CPU、充分利用内存/芯片级别缓存(注:10月14日刚刚发布的3.0.7版本中,进一步改进了内存操作的性能); 基于B-TREE及LSM算法; 提供文档级锁(document-level concurrency control转载 2016-05-31 10:21:58 · 2269 阅读 · 0 评论 -
Mapper类/Reducer类中的setup方法和cleanup方法以及run方法的介绍
在hadoop的源码中,基类Mapper类和Reducer类中都是只包含四个方法:setup方法,cleanup方法,run方法,map方法。/** * Expert users can override this method for more complete control over the * execution of the Mapper. * @pa原创 2016-04-20 16:21:26 · 8304 阅读 · 0 评论 -
集群
1 会话保持因为要在tomcat上做缓存,如果没有会话保持,由于我们是轮循的则会在每个tomcat上保留一份,显然重复了会还保持就是,保证同一个ip访问同一台服务器,所以要在tenginx上加上会话保持会话保持有时候又叫做粘滞会话(Sticky Sessions)。什么是连接(Connection)、什么是会话(Session)从简单的角度来看:1 如果用户需要原创 2016-03-25 20:55:49 · 355 阅读 · 0 评论