- 博客(13)
- 收藏
- 关注
转载 MapReduce on Yarn运行原理
一、概念综述 MapReduce是一种可用于数据处理的编程模型(或计算模型),该模型可以比较简单,但想写出有用的程序却不太容易。MapReduce能将大型数据处理任务分解成很多单个的、可以在服务器集群中并行执行的任务,而这些任务的计算结果可以合并在一起计算最终的结果。最重要的是,MapReduce的优势在于易于编程且能在大型集群(上千节点)并行处理大规模数据集,以可靠,容错的方式部...
2019-08-15 20:16:00 654
转载 伪分布式Spark + Hive on Spark搭建
Spark大数据平台有使用一段时间了,但大部分都是用于实验而搭建起来用的,搭建过Spark完全分布式,也搭建过用于测试的伪分布式。现在是写一遍随笔,记录一下曾经搭建过的环境,免得以后自己忘记了。也给和初学者以及曾经挖过坑的人用作参考。 Hive on Spark是Hive跑在Spark上,用的是Spark执行引擎,而不是默认的MapReduce。 可以查阅官网的资源Hi...
2019-08-10 20:24:00 508
转载 Hadoop版本升级(2.7.6 => 3.1.2)
自己的主机上的Hadoop版本是2.7.6,是测试用的伪分布式Hadoop,在前段时间部署了Hive on Spark,但由于没有做好功课,导致了Hive无法正常启动,原因在于Hive 3.x版本不适配Hadoop 2.x版本。之前我在学校服务器上部署的Hadoop版本是3.1.2,现打算将自己的从2.7.6升级到3.1.2版本,同时也当作练练手并记录以便以后参考。这是一个大版本跨度...
2019-08-09 22:32:00 2091
转载 Hadoop运行原理总结(详细)
本编随笔是小编个人参照个人的笔记、官方文档以及网上的资料等后对HDFS的概念以及运行原理进行系统性地归纳,说起来真的惭愧呀,自学了很长一段时间也没有对Hadoop知识点进行归纳,有时候在实战中或者与别人交流Hadoop相关技术时,很多概念也只是模模糊糊记得,并非很熟练。哈哈哈,趁着最后一个暑假,把自己这两年自学的大数据开发技术都系统性归纳,免得以后自己忘记了,顺便分享到自己的博客上,...
2019-07-27 02:19:00 2084
转载 Scala函数柯里化(Currying or Curry)
柯里化(Currying) 把接受多个参数的函数变换成接受一个单一参数(最初函数的第一个参数)的函数,并且返回接受余下的参数而且返回结果的新函数的技术。 简单的实现如下:scala> def add(x:Int, y:Int) = x + yadd: (x: Int, y: Int)Int 假如我们应用的时候,是这样的:add(1,2) ...
2019-07-20 00:08:00 237
转载 ubuntu安装伪分布式Hadoop3.1.2
作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3223本文是基于已经安装好的ubuntu环境上搭建伪分布式hadoop,在virtualbox安装ubuntu可以参考小编的”virtualbox安装ubuntu16.04 LTS及其配置“ubuntu16.04安装mysql:https://ww...
2019-05-15 00:57:00 290
转载 ubuntu16.04安装mysql
本文延续我上一篇文章(virtualbox安装ubuntu16.04 LTS及其配置)已经安装及配置好的ubuntu虚拟机。 在这里简单分享 ubuntu16.04下安装mysql的过程。 首先在终端上执行以下命令:# sudo apt-get install mysql-server mysql-client libmysqlclient-dev 安...
2019-05-14 20:02:00 107
转载 virtualbox安装ubuntu16 LTS及其配置
一、下载安装VirtualBox 1. 从官网下载VirtualBox,目前版本:VirtualBox 6.0.6 for Windows hosts x86/amd64 2. 下载好之后安装VirtualBox 3. 运行VirtualBox程序,如下图所示: 4. 配置VirtualBox。按CTRL+G打开全局设定,然后根据需要可以设定虚拟...
2019-05-14 15:55:00 221
转载 python爬取淘宝商品做数据挖掘
作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3159项目内容: 本项目选择 淘宝商品类目:零食 数量:一共100页,4400个零食商品 筛选条件:天猫、销量从高到低、价格0元到200元以内项目目的:对商品标题进行文本分析以及词云可视化商品...
2019-05-08 00:00:00 2436
转载 python复合数据类型以及英文词频统计
这个作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2753。1.列表,元组,字典,集合分别如何增删改查及遍历。列表操作如下所示:#列表 string = 'list' #字符串->列表 list1 = list(string) # ['l', 'i', 's...
2019-03-25 21:04:00 163
转载 Java四则运算——图形化界面
一.前提(1)作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2213(2)GitHub地址:https://github.com/mingbiaoleung/FourOperationWeb(3)调试环境:IntelliJ IDEA ,CHORME浏览器二.作业要求(1)基本要求自动生...
2018-10-24 21:45:00 1377
转载 Java小学四则运算
本次作业要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2166github远程仓库的地址:https://github.com/mingbiaoleung/FourOperation第一部分:要求1.作业需求:任何编程语言都可以,命令行程序接受一个数字输入,然后输出相应数目的四则运算题目和答案。...
2018-10-10 11:32:00 609
转载 Git的安装与使用
本次作业要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2103一、安装Git bash软件二、修改用户名和邮箱地址三、查看用户名和邮箱地址四、创建目录git并设置为仓库目录五、用Notepad++创建第一个文件六、检查文件状态...
2018-09-16 21:23:00 83
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人