![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
***大数据框架***
文章平均质量分 65
图灵的猫.
给行业以ai,而不是给ai以行业
展开
-
学习Hadoop需要哪些预备知识?Java是否必须会?
我个人建议大家不要一味的去学习理论知识,最好是理论和实践相结合,可以先跟着视频和文档去操作,先把伪分布式集群搭建起来,把wordcount实例运行起来,对hadoop集群的搭建过程和运行机制有个大概的了解和认知,然后从操作的过程中去发现自己在哪方面是薄弱点,有针对性的去弥补,这样学习就会更有针对性和目的性,学习效果也相对会更好一些,否则学习会很盲目、很痛苦的。我们需要使用一些命令,进行网络配置,但是在网络配置中,这里面又必须懂得虚拟机的一些知识,所以前面的虚拟机知识需要掌握扎实一些。如何使用hadoop?原创 2018-03-20 23:03:15 · 5951 阅读 · 0 评论 -
一文读懂HBase的存储模式--BigTable
摘要 Bigtable 是一个分布式的结构化数据存储系统,它被设计用来处理海量数据:通常是分布在数千台普通服务器上的 PB 级的数据。Google 的很多项目使用 Bigtable 存储数据,包括 Web 索引、 Google Earth、Google Finance。这些应用对 Bigtable 提出的要求差异非常大,无论是在数据量上(从 URL 到网页到卫星图像)还是在响应速度上(从后端...转载 2019-03-09 21:28:21 · 2379 阅读 · 0 评论 -
调度算法的定义与使用价值
调度算法需要尽量让同一个应用的不同实例部署在不同的宿主机、不同的机架、不同的机房、不同的数据中心、不同的城市、真是不同的国家;为容器选择合适的宿主机显然是一个值得考虑的问题,这里我们说一说调度算法能够帮助我们实现的价值,这些价值可以从单个容器、到应用、再到数据中心,这三个不同的层面展示出来。除了以上这些内容,实际中调度算法要考虑的内容还有很多,例如公平性的问题、应用间的干扰问题、不同应用间资源共享(互相借用)的问题、单机资源的调配问题(超线程、内存带框等)等等。这个算法大赛是怎么回事儿呢?原创 2018-09-08 17:15:56 · 1870 阅读 · 0 评论 -
深入浅出Flume之原理解析
阅读目录(Content)一、Flume简介 二、Flume特点 三、Flume的一些核心概念 3.1、Agent结构 3.2、source 3.3、Channel 3.4、Sink 四、Flume拦截器、数据流以及可靠性 4.1、Flume拦截器 4.2、Flume数据流 4.3、Flume可靠性 五、Flume使用场景 5.1、多个agent顺...转载 2018-07-25 00:14:39 · 1221 阅读 · 0 评论 -
Hive报错:Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
我的机器学习教程「美团」算法工程师带你入门机器学习 以及「三分钟系列」数据结构与算法已经开始更新了,欢迎大家订阅~这篇专栏整合了这几年的算法知识,简单易懂,也将是我实体书的BLOG版。欢迎大家扫码关注微信公众号「图灵的猫」,除了有更多AI、算法、Python相关文章分享,还有免费的SSR节点和外网学习资料。其他平台(微信/知乎/B站)也是同名「图灵的猫」,不要迷路哦~...原创 2018-07-09 17:09:09 · 672 阅读 · 0 评论 -
Secondary Namenode工作机制详解
我的机器学习教程「美团」算法工程师带你入门机器学习 以及「三分钟系列」数据结构与算法已经开始更新了,欢迎大家订阅~这篇专栏整合了这几年的算法知识,简单易懂,也将是我实体书的BLOG版。欢迎大家扫码关注微信公众号「图灵的猫」,除了有更多AI、算法、Python相关文章分享,还有免费的SSR节点和外网学习资料。其他平台(微信/知乎/B站)也是同名「图灵的猫」,不要迷路哦~...原创 2018-06-17 23:19:53 · 3018 阅读 · 0 评论 -
机器学习tips:什么是pipeline?
一个典型的机器学习构建包含若干个过程以上四个步骤可以抽象为一个包括多个步骤的流水线式工作,从数据收集开始至输出我们需要的最终结果。因此,对以上多个步骤、进行抽象建模,简化为流水线式工作流程则存在着可行性,对利用spark进行机器学习的用户来说,流水线式机器学习比单个步骤独立建模更加高效、易用。管道机制在机器学习算法中得以应用的根源在于,参数集在新数据集(比如测试集)上的。管道机制实现了对全部步骤的流式化封装和管理()。注意:管道机制更像是编程技巧的创新,而非算法的创新。原创 2018-06-11 15:54:29 · 40012 阅读 · 1 评论 -
Hadoop:一文详解MapReduce的工作机制
Hadoop MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。这个定义里面有着这些关键词,一是软件框架,二是并行处理,三是可靠且容错,四是大规模集群,五是海量数据集。因此,对于MapReduce,可以简洁地认为,它是一个软件框架,海量数据是它的“菜”,它在大规模集群上以一种可靠且容错的方式并行地“烹饪这道菜”。原创 2018-06-04 10:33:01 · 6609 阅读 · 3 评论 -
Unable to load native-hadoop library的解决方法
虽说不影响任务进程,不过看起来确实不好看(强迫症受不了)。具体操作是直接在log4j日志中去除告警信息。在/$HADOOP_HOME/etc/hadoop/log4j.properties。再运行命令,显示一切正常。原创 2018-05-27 20:35:16 · 14236 阅读 · 3 评论 -
Hadoop出现core-site.xml not found的解决办法
27-33行都是为了避免可能的报错而增加的几个path变量(其实不加也没事),最主要的是要修改最后一行那个HADOOP_CONF_DIR 变量为自己的Hadoop目录(默认是个错误的路径所以会跳错)提示说core-site.xml找不到。当时很奇怪,因为明明才更新了这个文件的配置,增加了几个进去。再次运行命令,一切正常。原创 2018-05-27 20:30:19 · 11968 阅读 · 2 评论 -
手把手教你安装Hadoop2.9.x(基于CENTOS 7| Jdk 1.8.0)
主要内容是自己安装Hadoop的经验,另外还会有一些疑难解答(主要是localhost:9000无法连接的问题)安装平台:Linux/GNU CENTOS 7环境设置:JAVA JDK最新版框架版本:Hadoop 2.9.X 环境本教程使用 CentOS 6.4 32位 作为系统环境,请自行安装系统。如果用的是 Ubuntu 系统,请查看相应的 Ubuntu安装Hadoop教程。本教程基于原生 H...转载 2018-05-27 12:53:13 · 3386 阅读 · 0 评论