A2206348612-CSDN博客

转载 spark（实验七）

一.spark介绍Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是–Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此...

2019-05-20 16:16:23 956

转载 hive(实验六）

一.hive基本概念1.hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。另外一个是Windows注册表文件。2.Hive是建立在...

2019-05-20 16:15:49 1288

转载 Nosql（实验五）

NoSQL 背景NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL的流...

2019-05-20 16:15:14 721

转载 Hbase(实验四）

HBase安装配置Hbase的安装是基于hDFS的，Hbase的配置主要涉及conf目录下的三个文件:hbase-env.sh，hbase-site.xml，regionserver1、HBASE基本概念HBase是一种Hadoop数据库，经常被描述为一种稀疏的，分布式的，持久化的，多维有序映射，它基于行键、列键和时间戳建立索引，是一个可以随机访问的存储和检索数据的平台。HBase不限制存储...

2019-05-20 15:56:37 389

转载 MapReduce分布式编程（实验三）

实验内容：1.编程调试WordCount程序2.生成jar包，在虚拟机上运行实验步骤1.首先在Eclipse中新建java项目2.项目建成后，能够看到项目结构如下所示，src文件夹此时是空的3.接下来右键单击src新建包和类，然后就进入Wordcount程序的代码编写阶段因为运行的是Wordcount程序，只需要如下三个jar包：$HADOOP_HOME/share/hado...

2019-05-20 15:56:00 1235 1

转载 HDFS命令和Java API（实验二）

HDFS命令和Java API 运行四个Java程序实验内容：Windows里安装配置JDK+Eclipse+Maven编程调试上述4个Java程序一、安装配置1.安装配置JDK①官网下载Java开发工具安装包jdk-8u201-windows-x64.exe②运行安装包，第一次选择JDK安装路径，第二次选择JRE安装路径，开始安装。③配置JDK的环境变量，Path添加JDK的...

2019-05-20 15:55:17 703

转载 JDK+Hadoop安装配置、单机模式配置(实验一）

安装虚拟机、SecureCRT以下操作在SecureCRT里面完成一、基础安装配置1.关闭防火墙2.传输JDK和HADOOP压缩包3.解压JDK、HADOOP4.配置JDK并生效5.配置HADOOP并生效6.单机模式配置hadoop -env.sh7.运行自带程序wordcount二、修改以下5个配置文件在与之间添加如下property：①core-site.xmlfs...

2019-05-20 15:53:05 787

转载网络爬虫

网络爬虫网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。（一）产生背景随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine)，例如传统的通用搜索引擎AltaVi...

2019-03-11 20:54:00 273

转载 Hadoop生态圈

1.HBaseHBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase...

2019-03-11 19:53:55 221

转载大数据概论

一．大数据大数据（big data），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托•迈尔-舍恩伯格及肯尼斯•库克耶编写的《大数据时代》中大数据指不用随机分析法（抽样调查）这样捷径，而采用所有数据进行分析处理。大数据的5V特点（IBM提出）：Volume（大量）、Ve...

2019-03-04 20:45:22 1185

A2206348612的博客