自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

转载 MapReduce on Yarn运行原理

一、概念综述   MapReduce是一种可用于数据处理的编程模型(或计算模型),该模型可以比较简单,但想写出有用的程序却不太容易。MapReduce能将大型数据处理任务分解成很多单个的、可以在服务器集群中并行执行的任务,而这些任务的计算结果可以合并在一起计算最终的结果。最重要的是,MapReduce的优势在于易于编程且能在大型集群(上千节点)并行处理大规模数据集,以可靠,容错的方式部...

2019-08-15 20:16:00 638

转载 伪分布式Spark + Hive on Spark搭建

  Spark大数据平台有使用一段时间了,但大部分都是用于实验而搭建起来用的,搭建过Spark完全分布式,也搭建过用于测试的伪分布式。现在是写一遍随笔,记录一下曾经搭建过的环境,免得以后自己忘记了。也给和初学者以及曾经挖过坑的人用作参考。   Hive on Spark是Hive跑在Spark上,用的是Spark执行引擎,而不是默认的MapReduce。   可以查阅官网的资源Hi...

2019-08-10 20:24:00 496

转载 Hadoop版本升级(2.7.6 => 3.1.2)

  自己的主机上的Hadoop版本是2.7.6,是测试用的伪分布式Hadoop,在前段时间部署了Hive on Spark,但由于没有做好功课,导致了Hive无法正常启动,原因在于Hive 3.x版本不适配Hadoop 2.x版本。之前我在学校服务器上部署的Hadoop版本是3.1.2,现打算将自己的从2.7.6升级到3.1.2版本,同时也当作练练手并记录以便以后参考。这是一个大版本跨度...

2019-08-09 22:32:00 2058

转载 Hadoop运行原理总结(详细)

  本编随笔是小编个人参照个人的笔记、官方文档以及网上的资料等后对HDFS的概念以及运行原理进行系统性地归纳,说起来真的惭愧呀,自学了很长一段时间也没有对Hadoop知识点进行归纳,有时候在实战中或者与别人交流Hadoop相关技术时,很多概念也只是模模糊糊记得,并非很熟练。哈哈哈,趁着最后一个暑假,把自己这两年自学的大数据开发技术都系统性归纳,免得以后自己忘记了,顺便分享到自己的博客上,...

2019-07-27 02:19:00 2055

转载 Scala函数柯里化(Currying or Curry)

柯里化(Currying)     把接受多个参数的函数变换成接受一个单一参数(最初函数的第一个参数)的函数,并且返回接受余下的参数而且返回结果的新函数的技术。   简单的实现如下: scala> def add(x:Int, y:Int) = x + y add: (x: Int, y: Int)Int   假如我们应用的时候,是这样的:add(1,2)   ...

2019-07-20 00:08:00 231

转载 ubuntu安装伪分布式Hadoop3.1.2

作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3223 本文是基于已经安装好的ubuntu环境上搭建伪分布式hadoop,在virtualbox安装ubuntu可以参考小编的 ”virtualbox安装ubuntu16.04 LTS及其配置“ ubuntu16.04安装mysql:https://ww...

2019-05-15 00:57:00 273

转载 ubuntu16.04安装mysql

本文延续我上一篇文章(virtualbox安装ubuntu16.04 LTS及其配置)已经安装及配置好的ubuntu虚拟机。   在这里简单分享 ubuntu16.04下安装mysql的过程。   首先在终端上执行以下命令: # sudo apt-get install mysql-server mysql-client libmysqlclient-dev   安...

2019-05-14 20:02:00 95

转载 virtualbox安装ubuntu16 LTS及其配置

一、下载安装VirtualBox   1. 从官网下载VirtualBox,目前版本:VirtualBox 6.0.6 for Windows hosts x86/amd64   2. 下载好之后安装VirtualBox   3. 运行VirtualBox程序,如下图所示:      4. 配置VirtualBox。按CTRL+G打开全局设定,然后根据需要可以设定虚拟...

2019-05-14 15:55:00 210

转载 python爬取淘宝商品做数据挖掘

作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3159 项目内容:   本项目选择 淘宝商品类目:零食 数量:一共100页,4400个零食商品 筛选条件:天猫、销量从高到低、价格0元到200元以内 项目目的: 对商品标题进行文本分析以及词云可视化 商品...

2019-05-08 00:00:00 2389

转载 python复合数据类型以及英文词频统计

这个作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2753。 1.列表,元组,字典,集合分别如何增删改查及遍历。 列表操作如下所示: #列表 string = 'list' #字符串->列表 list1 = list(string) # ['l', 'i', 's...

2019-03-25 21:04:00 156

转载 Java四则运算——图形化界面

一.前提 (1)作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2213 (2)GitHub地址:https://github.com/mingbiaoleung/FourOperationWeb (3)调试环境:IntelliJ IDEA ,CHORME浏览器 二.作业要求 (1)基本要求 自动生...

2018-10-24 21:45:00 1361

转载 Java小学四则运算

本次作业要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2166 github远程仓库的地址:https://github.com/mingbiaoleung/FourOperation 第一部分:要求 1.作业需求:任何编程语言都可以,命令行程序接受一个数字输入,然后输出相应数目的四则运算题目和答案。...

2018-10-10 11:32:00 596

转载 Git的安装与使用

本次作业要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2103 一、安装Git bash软件 二、修改用户名和邮箱地址 三、查看用户名和邮箱地址 四、创建目录git并设置为仓库目录 五、用Notepad++创建第一个文件 六、检查文件状态 ...

2018-09-16 21:23:00 74

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除