__Hadoop杂谈
文章平均质量分 60
冥想者-定
缘起性空
展开
-
开通博客第一天
1、开始学习hadoop2、开始学习hive3、开始学习hbase4、开始学习hadoop 2.x转载 2015-02-03 20:34:20 · 376 阅读 · 0 评论 -
Hadoop Yarn 框架原理及运作机制
http://blog.csdn.net/liuwenbo0920/article/details/433042431.1 YARN 基本架构YARN是Hadoop 2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。转载 2015-10-13 16:27:22 · 416 阅读 · 0 评论 -
hadoop权威指南目录结构
第一章:初识hadoop1、数据!数据!2、数据的存储与分析3、相较于其他系统的优势 关系型了数据库管理系统 网格结算 志愿计算4、hadoop发展简史5、apache hadoop 和hadoop的生态系统6、hadoop的发型版本 本书包含的内容 兼容性第二章:关于MapReduce1、气象数据集2、使用Unix工具来分析转载 2015-10-02 10:22:35 · 467 阅读 · 0 评论 -
第一章 初识hadoop
1、数据数据 数据太多了呗。 2、数据的存储和分析3、相较于其他系统的优势 关系型数据块管理系统 网格计算 志愿计算mapreduce有散打设计目标: 1、为只需要短短几分钟或者几个小时就可以完成的作业提供服务2、运行于同一个内部有告诉网络连接的数据中心内部,3、数据中心内的计算机都是可靠的,定制的硬件,4、hadoop原创 2015-10-02 10:29:42 · 404 阅读 · 0 评论 -
Hadoop配置项整理(core-site.xml)
namevalue Description fs.default.namehdfs://hadoopmaster:9000定义HadoopMaster的URI和端口 fs.checkpoint.dir/opt/data/hadoop1/hdfs/namesecondary1定义hadoop的name备份的路径,官方文档说是读取这个,写入dfs.na转载 2015-09-15 14:44:30 · 483 阅读 · 0 评论 -
Hadoop配置项整理(mapred-site.xml)
namevalueDescriptionhadoop.job.history.locationjob历史文件保存路径,无可配置参数,也不用写在配置文件里,默认在logs的history文件夹下。hadoop.job.history.user.location用户历史文件存放位置io.sort.factor30这里处转载 2015-09-15 14:45:27 · 806 阅读 · 0 评论 -
第二章 关于mapreduce
1、气象数据集 数据格式 使用unix工具来分析数据使用hadoop来分析数据java编写mapreduce combiner函数运行分布式的mapreduce作业hadoop streamingruby版本python版本Hadoop pipes 他是hadoop mapreduce的c++接口的名称转载 2015-10-02 10:45:56 · 303 阅读 · 0 评论 -
Hadoop配置项整理(hdfs-site.xml)
name valueDescription dfs.default.chunk.view.size32768namenode的http访问页面中针对每个文件的内容显示大小,通常无需设置。dfs.datanode.du.reserved1073741824每块磁盘所保留的空间大小,需要设置一些,主要是给非hdfs文件使用,默认是不保留,0字节转载 2015-09-15 14:43:43 · 441 阅读 · 0 评论 -
InputFormat
combineFile【一般用于合并多个小文件做为 一个map的输入】textInputFomat【默认的map输入,key偏移量,v这一行的值】FileInputFomatKeyValueTextInputFomat【默认以制表符为分隔符,k就是前面部分,v就是后半部分】InputFormat NlineInputFormat【N只是得多少行,以固定行数为每一个map分配,k原创 2015-09-29 11:12:50 · 427 阅读 · 0 评论 -
hadoop调度器
http://blog.sina.com.cn/s/blog_8d955f8c0101c7px.html1:默认调度器 :FIFO 这个调度器的特点是先进先出,英文名是first in first out,所有任务提交到一个队列里面,然后由jobtracker按照作业的优先级高低及提交顺序 执行HOD调度器: 此调度器的原理是一个hadoop物理机群中,转载 2015-11-03 10:29:24 · 562 阅读 · 0 评论 -
Hadoop的调度器总结
http://dongxicheng.org/mapreduce/hadoop-schedulers/随着MapReduce的流行,其开源实现Hadoop也变得越来越受推崇。在Hadoop系统中,有一个组件非常重要,那就是调度器,它的作用是将系统中空闲的资源按一定策略分配给作业。在Hadoop中,调度器是一个可插拔的模块,用户可以根据自己的实际应用要求设计调度器。Hadoop中常见转载 2015-11-03 10:30:43 · 512 阅读 · 0 评论 -
数据挖掘
统计学谈及到科学,应当仔细研究统计学。近来,许多统计学中的分支学科被重新冠以数据科学之名,因此,在某种程度上,我们好像正在谈论语义学知识。但是,正如我先前谈到的,我认为科学方法应当被当作一门科学:难道提出假设,设计可行的实验方案等研究步骤不能称得上“方法论”吗?倘若不是的话,也许像“统计学家”或“模型分析师”这样的头衔更为贴切。暂且将这一问题放一放,倘若你是产业界的一名统计员或者刚转载 2016-09-26 15:34:55 · 312 阅读 · 0 评论 -
大数据 应用场景
http://www.36dsj.com/archives/7573大数据:实际使用案例 让Hadoop和其他大数据技术如此引人注目的部分原因是,他们让企业找到问题的答案,而在此之前他们甚至不知道问题是什么。这可能会产生引出新产品的想法,或者帮助确定改善运营效率的方法。不过,也有一些已经明确的大数据用例,无论是互联网巨头如谷歌,Facebook和LinkedIn还是更多的传统企转载 2016-09-23 19:54:28 · 784 阅读 · 0 评论 -
一步步教你看懂大数据时代下的“用户画像”
一步步教你看懂大数据时代下的“用户画像”中国大数据产业观察网2016-04-16 18:07:33阅读(3607)评论(0)声明:本文由入驻搜狐公众平台的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。举报 什么是用户画像 交互设计之父Alan Cooper最早提出了用户画像(persona)的概念,认为“用户画像是真转载 2016-09-23 17:38:36 · 13664 阅读 · 0 评论 -
大数据五大职位
1、数据科学家。2、数据分析师,因为是偏业务,系统和模型。3、数据工程师处理工程上的事情,如何抓数据,清洗数据,如何存储,如何计算。4、数据架构师,这是在硅谷最热门的职位,这种人才是非常缺的,可遇而不可求。5、数据产品经理,如何把你的数据和你的业务结合起来做成数据产品。转载 2016-09-23 16:53:07 · 4628 阅读 · 0 评论 -
hadoop 免密码登录
免密码ssh设置现在确认能否不输入口令就用ssh登录localhost:$ ssh localhost如果不输入口令就无法用ssh登陆localhost,执行下面的命令:$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys转载 2016-06-07 14:15:46 · 576 阅读 · 0 评论 -
hadoop技术内幕
hadoop技术内幕深入解析mapreduce架构设计与实现原理1、基础篇1、阅读源代码前的准备2、mapreduce设计理念与基本架构3、mapreduce编程模型4、mapreducerpc框架解析5、作业提交与初始化过程分析6、jobtracker内部实现剖析7、tasktracker内部实现剖析8、task运行过程分析9、hadoop性能调优转载 2016-05-27 17:01:35 · 615 阅读 · 0 评论 -
kerberos介绍
kerberos是一种网络认证协议,主要用于计算机网络的身份鉴别。其特点是用户只需要输入一次身份验证信息就可以凭借此验证活得的票据访问多个服务,kerveros认证过程的实现不因爱于主机操作系统的认证,它不基于主机地址的信任,也不要求网络上所有主机的物理安全,kerveros作为一种可以任性的第三方认证服务,是通过传统的密码技术(如共享秘钥)执行认证服务的。1、kerverso协议中的基本转载 2016-05-27 16:56:45 · 1503 阅读 · 0 评论 -
大数据经验教训
做大数据开发注意事项:1、一定要小心上线 因为你的错误,可能当前的数算错了,那么就错了好多天,需要去补跑数据,这个补跑的过程,可能通宵达旦,中间还可能中断,快挂了,很煎熬2、开发是一定要小心3、测试时一定要仔细检查大部分数据,不要拿小部分数据说话。4、上线时一定要想清楚再上线,否则就是死的很惨。5、大数据开发不容易啊,一定要动脑筋啊。还有积累经验。原创 2015-11-20 09:42:01 · 620 阅读 · 0 评论 -
MR的调优
map端调优io.sort.mb int 100 排序map输出时所使用的内存缓冲区的大小io.sort.record.percent float0.05 用作存储map输出记录边界的io.sort.mv的比例,神域的空间用来存储map输出记录本身, 1.0版本后删除该属性io.sort.spill.percent float0.8转载 2015-09-28 16:12:55 · 1252 阅读 · 0 评论 -
PayPal高级工程总监:读完这100篇论文 就能成大数据高手
摘要:PayPal高级工程总监Anil Madan写了篇大数据的文章,近日CSDN对此进行了翻译。一共有100篇数据的论文,涵盖大数据技术栈,全部读懂你将会是大数据的顶级高手。开源(Open Source)用之于大数据技术,其作用有二:一方面,在大数据技术变革之路上,开源在众人之力和众人之智推动下,摧枯拉朽,吐故纳新,扮演着非常重要的推动作用。另一方面,开源也给大数据技术构建了一个异常转载 2015-07-07 15:36:33 · 1518 阅读 · 0 评论 -
中国城市 60强
60强名单编辑超一线城市:上海、北京一线城市:广州、深圳1.5线城市:成都、重庆、杭州、南京、沈阳、苏州、天津、武汉、西安二线城市:长沙、大连、济南、宁波、青岛、无锡、厦门、郑州。三线增长型城市:长春、常州、哈尔滨、福州、昆明、合肥、东莞、石家庄、呼和浩特、南昌、温州、佛山、贵阳、南宁新兴型三线城市:海口、湖州、唐山、[1] 嘉兴、绍兴、南通、徐州、转载 2015-04-14 16:28:04 · 423 阅读 · 0 评论 -
薛定谔把妹法
著名的豆瓣小组“科学松鼠会”里有网友提出,应该将科学用于“追女”:“据我多年观察,找不到女友的男生反而是高学历,因为高学历的男生大部分不会玩,不会哄女生。那些学历不高的男生,大部分反而很会追女生,因为他们会玩,懂女生的心理。科学宅男,让我们想想追女生的方法吧!这个问题很现实,不是基础科学,而是应用科学。”[1] 此号召出炉之后,就有人立刻引用巴甫洛夫的“条件反射”,称这个理论同样可以用转载 2015-03-13 17:53:44 · 779 阅读 · 0 评论 -
每个Linux对应版本的 关闭防火墙的命令还不一样。
ContOS 7.0 关闭防火墙的命令是下面这个。 systemctl stop firewalld.service转载 2015-03-13 09:29:11 · 854 阅读 · 0 评论 -
架构,设计,解耦
架构,设计,解耦这是最重要的代码实现还是次要的因为代码实现是早晚的事情架构的好坏,影响后期的维护设计的好坏,影响结构的调整解耦的开发,写代码不应该写的那么快,应该考虑到每一个代码,会发生什么事情。------------------------------------如果不按照这些准则来。后期维护,特别困难后期维护转载 2015-02-12 16:30:26 · 467 阅读 · 0 评论 -
两个list ,给长度短的list 添加 长list中 自己不包含的元素
public List getCommandPropertiesVOByTypeAndId(String commandType ,String commandId) { List father = commandPropertiesDao.getCommandPropertiesVO(commandId); if(father != null && fathe转载 2015-02-12 19:45:16 · 704 阅读 · 0 评论 -
ITWorld:2014年全球最杰出的14位编程天才
近日,ITWorld 整理全球最杰出的 14 位程序员,一起来看下让我们膜拜的这些大神都有哪些?(排名不分先后) 1、Jon Skeet 个人名望:程序技术问答网站 Stack Overflow 总排名第一的大神,每月的问答量保持在 425 个左右。 个人简介/主要荣誉:谷歌软件工程师,代表作有《深入理解C#(C# InDepth)》。 网络上对 J转载 2015-02-09 22:56:49 · 6105 阅读 · 0 评论 -
【Hadoop】用web查看hadoop运行状态
我们安装完hadoop,下面我们从视觉上看看hadoop怎么玩的。 我们可以在win7系统上,通过web界面,在浏览器地址栏输入地址,直接查看hadoop的运行情况; 10.10.11.191:50030这个里面,我们可以看到Map/Reduce的管理情况 10.10.11.191:50070这里可以看到HDFS的管理情况。 但是在这里,会有一转载 2015-02-07 10:50:43 · 1459 阅读 · 0 评论 -
kafka Windows客户端Linux服务器---转
一、对于服务器端的搭建可以参考上一篇文章:kafka单机版环境搭建与测试服务器端IP :10.0.30.221运行环境的目录如下: 需要改动config文件夹下的server.properties中的以下两个属性zookeeper.connect=localhost:2181改成zookeeper.connect=00.00.00.01 (IP地址):218转载 2015-05-26 21:01:59 · 684 阅读 · 0 评论 -
实践部署与使用apache kafka框架技术博文资料汇总
前一篇Kafka框架设计来自英文原文(Kafka Architecture Design)的翻译及整理文章,很有借鉴性,本文是从一个企业使用Kafka框架的角度来记录及整理的Kafka框架的技术资料,也很有借鉴价值,为了便于阅读与分享,我将其整理一篇Blog。本文内容目录摘要如下:1)apache kafka消息服务2)kafka在zookeeper中存储结构3)kafka转载 2015-05-26 21:30:40 · 3210 阅读 · 0 评论 -
Hadoop pipes
4. 总结Hadoop pipes给C++程序员提供了一个编写MapReduce作业的方案,它使用socket让Java和C++之间进行通信,这类似于thrift RPC的原理,也许Hadoop Pipes用thrift编写会更加简单。Hadoop pipes使用Java代码从HDFS上读写数据,并将处理逻辑封装到C++中,数据会通过socket从Java传输给C++,这虽然增加了转载 2015-06-30 16:31:29 · 458 阅读 · 0 评论 -
CDH(Cloudera)与hadoop(apache)对比
转:http://www.aboutyun.com/thread-9225-1-1.htmlCloudera的CDH和Apache的Hadoop的区别 目前而言,不收费的Hadoop版本主要有三个(均是国外厂商),分别是:Apache(最原始的版本,所有发行版均基于这个版本进行改进)、Cloudera版本(Cloudera’s Distribution Including Apa转载 2015-06-30 15:54:11 · 1401 阅读 · 0 评论 -
hadoop 的所有的参数观看网址
上面的参数,大部分都是默认的参数,需要手动的设置并不多。至于每个默认参数的含义,可以查看以下的链接,http://hadoop.apache.org/common/docs/r/-default.html,如我部署的hadoop的版本是1.2.1,那与hdfs相关的参数可以到http://hadoop.apache.org/docs/r1.2.1/hdfs-default.html查看。转载 2015-06-29 14:53:27 · 535 阅读 · 0 评论 -
Hadoop权限管理
1. 介绍本文介绍的Hadoop权限管理包括以下几个模块:(1) 用户分组管理。用于按组为单位组织管理,某个用户只能向固定分组中提交作业,只能使用固定分组中配置的资源;同时可以限制每个用户提交的作业数,使用的资源量等(2) 作业管理。包括作业提交权限控制,作业运行状态查看权限控制等。如:可限定可提交作业的用户;可限定可查看作业运行状态的用户;可限定普通用户只能修改自转载 2015-06-29 14:50:52 · 412 阅读 · 0 评论 -
大众点评的大数据实践
2011 年小规模试水 这一阶段的主要工作是建立了一个小的集群,并导入了少量用户进行测试。为了满足用户的需求,我们还调研了任务调度系统和数据交换系统。 我们使用的版本是当时最新的稳定版,Hadoop 0.20.203 和 Hive 0.7.1。此后经历过多次升级与 Bugfix。现在使用的是 Hadoop 1.0.3+ 自有 Pa转载 2015-06-24 18:13:59 · 1288 阅读 · 0 评论 -
avro简单介绍
这是对avro官方文档的直译:avro是一个数据序列化系统提供了:丰富的数据结构压缩的,快速的,二进制的数据格式一种文件格式,用于存储持久化数据一个RPC系统和动态语言的简单交互。并不需要为数据文件读写产生代码,也不需要使用或实现RPC协议(也就是说不喝RPC集成)。代码生成是一种优化方式,带式只对于静态语言有意shemas: 所谓shemas转载 2015-05-30 19:35:33 · 565 阅读 · 0 评论 -
FLUME日志收集
一、FLUME介绍Flume是一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。设计目标:(1) 可靠性当节点出现故障时,日志能够被传送到其他节点上而不会丢失。Flume提供了三种级别的可靠性保障,从强到弱依次分别为:end-to-end(收到数转载 2015-05-27 21:09:08 · 321 阅读 · 0 评论 -
ZooKeeper系列之五:ZooKeeper的运行
我们这里所介绍的是对应 ZooKeeper系列之三:ZooKeeper的安装 模式的运行。 1)单机模式用户可以通过下面的命令来启动 ZooKeeper 服务:zkServer.sh start这个命令默认情况下执行 ZooKeeper 的 conf 文件夹下的 zoo.cfg 配置文件。当运行成功用户会看到类似如下的提示界面:root@转载 2015-05-26 20:46:11 · 375 阅读 · 0 评论