云计算
文章平均质量分 52
BBlue-Sky
这个作者很懒,什么都没留下…
展开
-
hadoop学习路线
1.我们要掌握Linux的安装及基本操作、Python安装及编程基础、java基础。需要学习Linux的常用命令、基本网络配置、进程管理、shell语法;Python的常用语法,能够基于Python搭建一个常用的Server服务器和java的基础知识。这时候只需要掌握基础即可,后边遇到问题再学习,这样才不会混乱,学的才扎实。搭建Hadoop分布式环境我们要做的是在自己的电脑上安装Linux,然后转载 2017-07-17 17:43:58 · 323 阅读 · 0 评论 -
处理海量小文件——本地文件读成sequenceFile文件
个人观点:当处理海量小文件时,先将小文件进行sequenceFile操作或者类似操作处理,然后再上传到HDFS系统进行下一步的处理。(如有其它建议,欢迎留言)一、直接上传本地栅格数据将导致的问题根据栅格数据的特点,每层的图片个数都为上层数量的四倍。在第20层时,仅仅第20层的图片的数量达到了“2199023255552”张(世界地图在第一层被切成了两张图片,第二十层的数量为:4**7*2),且...原创 2018-09-27 08:34:54 · 1047 阅读 · 0 评论 -
大数据/云计算 行业报告
链接:https://pan.baidu.com/s/1wBa7CrKMD0c1H8mRyvijbw 密码:jdgj原创 2018-10-02 18:14:09 · 1151 阅读 · 0 评论 -
Hadoop、Spark大数据入门、进阶电子书大全
链接:https://pan.baidu.com/s/1SIXWtxh31aCR_7_CJasFGg 密码:u12k原创 2018-10-02 18:02:08 · 3046 阅读 · 3 评论 -
Apache Ambari——Hadoop简易安装、监控工具
背景最近在做关于Hadoop集群的可视化部署相关的调研,发现了Ambari这个有趣的东西,在使用的过程中,整理了一部分功能列表,在此分享。欢迎光顾 我的博客Ambari简介Ambari是Hortonworks开源的Hadoop平台的管理软件,具备Hadoop组件的安装、管理、运维等基本功能,提供Web UI进行可视化的集群管理,简化了大数据平台的安装、使用难度。功能列表操作级别:Hos...原创 2018-10-02 17:56:21 · 3501 阅读 · 0 评论 -
RPC 框架简介
远程过程调用协议RPC(Remote Procedure Call Protocol)首先了解什么叫RPC,为什么要RPC,RPC是指远程过程调用,也就是说两台服务器A,B,一个应用部署在A服务器上,想要调用B服务器上应用提供的函数/方法,由于不在一个内存空间,不能直接调用,需要通过网络来表达调用的语义和传达调用的数据。比如说,一个方法可能是这样定义的:Employee getEmployee...原创 2018-10-02 16:15:22 · 346 阅读 · 0 评论 -
DataSet 实质解读
参考资料:http://www.jianshu.com/p/77811ae29fddhttp://blog.csdn.net/zg_hover/article/details/54405224?locationNum=10&fps=1http://geek.csdn.net/news/detail/96754原创 2017-10-24 21:38:59 · 324 阅读 · 0 评论 -
SparkSQL:如何找到与Spark版本对应的jar包
方法:进入Spark官网,下载对应版本的Spark,注意相应版本号,以及直接下载预编译的版本,不要下源码包 下载之后,解压,到该文件夹下的jars目录,对应Spark版本的相应jar包均在其中,再导入IDE既可以进行开发了原创 2017-09-06 09:18:33 · 73564 阅读 · 0 评论 -
【Spark 2.0官方文档】Spark SQL、DataFrames以及Datasets指南
文档说明本文是基于《Spark 官方文档》Spark SQL, DataFrames 以及 Datasets 编程指南 这篇文章翻译而来。 原文中关于R语言的部分本文档全都省略。 由于个人水平有限,有些地方难免翻译的不准确,烦请指正。概述 Spark SQL 是 Spark 用于处理结构化数据的一个模块。不同于基础的 Spark RDD API,Spark SQL 提供的接口提供了更多关于数据和翻译 2017-09-06 08:46:35 · 61466 阅读 · 0 评论 -
HDFS、YARN、MapReduce原理--读书笔记
8.13 大数据工程师/hadoop工程师 目的:高效的存储、处理这些海量、多种类、高速流动的数据 hadoop来源google 03~06 年 的三篇论文 hadoop利用分而治之的朴素思想为大数据处理提供了一整套新的解决方案,分布式文件系统HDFS、分布式计算框架MapReduce、NoSQL数据库HBase、数据仓库工具Hive等 hadoop主要组件:HDFS、MapReduce、原创 2017-08-15 10:30:04 · 1119 阅读 · 0 评论 -
Spark快速大数据分析——读书笔记
——8.16开始整理 Spark快速大数据分析推荐序: 一套大数据解决方案通常包含多个组件,从存储、计算和网络硬件层,到数据处理引擎,再到利用改良的统计和计算算法、数据可视化来获得商业洞见的分析层,这其中数据处理引擎起到了十分重要的作用,毫不夸张的说数据处理引擎至于大数据就相当于CPU之于计算机spark起源: 2009年加州大学伯克利分校AMPlab 创立spark大数据处理和计算框架。不同原创 2017-08-19 21:18:13 · 4958 阅读 · 0 评论 -
阿里云学生机mysql初始密码
PS:前几天 注册申请了ali云。。。。却找不到 默认安装的mysql 的初始密码,真成了 ali晕。版本 :阿里云学生机标配CentOS 密码在 root用户家目录中的 passwd.txt原创 2017-08-02 10:39:18 · 2649 阅读 · 0 评论 -
读完这100篇论文 就能成大数据高手
大数据高手必看:http://www.cnblogs.com/baiboy/p/100p.html转载 2018-12-25 16:12:54 · 492 阅读 · 0 评论