自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 Spark实验报告

一、兼容问题Spark与Scala版本兼容问题:Spark运行在Java 8 +,Python 2.7 + / 3.4 +和R 3.1+上。对于Scala API,Spark 2.4.2使用Scala 2.12。您需要使用兼容的Scala版本(2.12.x)。请注意,自Spark 2.2.0起,对2.6.5之前的Java 7,Python 2.6和旧Hadoop版本的支持已被删除。自2.3...

2019-05-22 10:41:36 3407

原创 hive实验报告

Linux下的MySQL安装配置与卸载MySQL安装配置①官网下载mysql-server(yum安装)wget http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm若wget不可用,下载安装wget:yum -y install wget②解压rpm -ivh mysql-community-releas...

2019-05-22 10:31:10 2444

原创 NoSQL学习总结

一、关系型数据库和非关系型数据库1、关系型数据库 关系数据库,是建立在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据。现实世界中的各种实体以及实体之间的各种联系均用关系模型来表示。关系模型是由埃德加·科德于1970年首先提出的,并配合“科德十二定律”。现如今虽然对此模型有一些批评意见,但它还是数据存储的传统标准。标准数据查询语言SQL就是一种基于关系...

2019-05-22 10:17:46 776

原创 HBase实验报告

一、HBase和zookeeper的安装解压安装将压缩包从Windows传输到Linux当前目录下:解压安装到指定目录下/opt/module环境变量配置在/etc/profile文件里添加HBase及zookeeper安装路径的配置信息source /etc/profile配置生效 (基于上一个文档增加的内容)测试HBase安装成功,命令hbase ve...

2019-05-22 10:06:55 3383

原创 MapReduce分布式编程实验报告

一、分布式编程的介绍 可在分布计算机系统的几台计算机上同时协调执行的程序设计方法,分布式程序设计的主要特征是分布和通信。采用分布式程序设计方法设计程序时,一个程序由若干个可独立执行的程序模块组成。这些程序模块分布于一个分布式计算机系统的几台计算机上同时执行。分布在各台计算机上的程序模块是相互关联的,它们在执行中需要交换数据,即通信。只有通过通信,各程序模块才能协调地完成一个共同的...

2019-05-21 23:00:26 1425

原创 HDFS实验报告

一、安装配置JDK+Eclipse+Maven1、安装配置jdk①官网下载Java开发工具安装包jdk-8u201-windows-x64.exe:https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html②运行安装包,第一次选择JDK安装路径,第二次选择JRE安装路径,开始安装。...

2019-05-21 22:44:53 5084

原创 Jdk+Hadoop三种安装模式实验报告

1.JDK+Hadoop安装配置、单机模式配置首先连接SecureCRT,关闭Linux的防火墙传输jdk和Hadoop的安装包到linux下开启sftp操作put jdk-8u121-linux-x64.tar.gzput hadoop-2.7.3.tar.gztar -zxvf jdk-8u121-linux-x64.tar.gz -C /opt...

2019-05-21 22:16:42 469

原创 学习认识使用大数据数据采集工具

1、八爪鱼采集器:官网:http://www.bazhuayu.com/简介:八爪鱼采集器是一款可视化采集器,内置采集模板,支持各种网页数据采集。优点:1.支持自定义模式,可视化采集操作,容易上手;2.支持简易采集模式,提供官方采集模板,支持云采集操作;3.支持防屏蔽措施,例如代理IP切换和验证码服务;4.支持多种数据格式导出。缺点:1.功能使用门槛较高,本地采集时很多功能受限,...

2019-05-21 21:07:14 2534

原创 大数据采集的技术

一、系统日志采集系统。许多公司的业务平台每天都会产生大量的日志数据。对于这些日志信息,我们可以得到出很多有价值的数据。通过对这些日志信息进行日志采集、收集,然后进行数据分析,挖掘公司业务平台日志数据中的潜在价值。为公司决策和公司后台服务器平台性能评估提高可靠的数据保证。系统日志采集系统做的事情就是收集日志数据提供离线和在线的实时分析使用。目前常用的开源日志收集系统有Flume、Scribe等。 A...

2019-05-21 20:53:09 4055

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除