bigdata
浅墨微蓝
这个作者很懒,什么都没留下…
展开
-
3.2 Mapreduce实例—WordCount
实验3.2 Mapreduce实例—WordCount字体:实验目的1.准确理解Mapreduce的设计原理2.熟练掌握WordCount程序代码编写3.学会自己编写WordCount程序进行词频统计实验原理MapReduce采用的是“分而治之”的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个从节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单来说,MapReduce就是...原创 2018-02-01 11:54:51 · 1141 阅读 · 0 评论 -
Hadoop伪分布式安装
1.环境信息elementary 14.04Java 1.8.0_151(/apps/jdk1.8.0_151)Hadoop 2.6.5(/apps/hadoop)用户名bigdata、密码123、主机名hadoop2.创建bigdata用户# 创建名为bigdata的用户$ sudo useradd -m bigdata# 用如下指令设置密码,按提示输入两次密码,设置为123$ sudo pas...原创 2018-01-29 20:53:10 · 271 阅读 · 0 评论 -
hadoop参数配置
hadoop 参数配置hadoop 参数 hadoop配置参数 hadoop优化目录[-]Hadoop参数汇总linux参数JVM参数Hadoop参数大全core-default.xmlhdfs-default.xmlyarn-default.xmlHadoop参数汇总@(hadoop)[配置]linux参数以下参数最好优化一下:文件描述符ulimit -n用户最大进程 nproc (hbase需...转载 2018-02-27 18:21:20 · 794 阅读 · 0 评论 -
3.1 Hadoop开发插件安装
实验3.1 Hadoop开发插件安装字体:实验目的1.了解Eclipse开发环境的使用2.熟练掌握Hadoop开发插件安装实验原理Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。幸运的是Eclipse附带了一个标准的插件集,包括Java开发工具(Java Development Tools,JDT)。Eclip...原创 2018-02-01 11:54:20 · 3348 阅读 · 0 评论 -
Hadoop启动脚本全面详解
在工作过程中,经常需要调整一些Hadoop的参数配置,所以经常会遇到各种各样的问题。比如改了个配置怎么突然namenode起不来啦,加了个jar包怎么让hadoop的jvm加载啊,如何设定log目录啦等等,每次都需要仔细的查一遍启动脚本才能找到原因,费时又费力,因此专门总结了一下以便不时之需。cloudera的hadoop的启动脚本写的异常复杂和零散,各种shell脚本分散在系统的各个角落,让转载 2018-01-29 20:54:59 · 1662 阅读 · 1 评论 -
6.1可视化
可视化字体:1.ECharts简介ECharts,纯Javascript图表库,基于Canvas,底层依赖ZRender,商业产品常用图表库,提供直观,生动,可交互,可个性化定制的数据可视化图表。创新的拖拽重计算、数据视图、值域漫游等特性大大增强了用户体验,赋予了用户对数据进行挖掘、整合的能力。可以流畅的运行在 PC 和移动设备上,兼容当前绝大部分浏览器(IE8/9/10/11,C原创 2018-02-01 12:02:55 · 390 阅读 · 0 评论 -
5.2Hive统计
Hive统计字体:1.基础概述Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hive构建在基于静态批处理的Had原创 2018-02-01 12:02:04 · 1198 阅读 · 0 评论 -
5.1Hive安装部署
Hive安装部署字体:实验目的1.了解Hive的安装部署2.了解Hive的工作原理实验原理Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用原创 2018-02-01 12:01:16 · 253 阅读 · 0 评论 -
4.2HBase JAVA API
HBase JAVA API字体:实验目的1.了解HBase语言的基本语法2.了解HBase开发的原理3.了解HBase Java API的使用实验原理HBase与Hadoop一样,都是用Java编写的,所以HBase对Java支持是必须的,HBase Java API核心类介绍如下:1.HBaseConfiguration类HBaseConfiguration原创 2018-02-01 11:59:19 · 739 阅读 · 0 评论 -
4.1HBase安装
HBase安装字体:实验目的1.了解HBase的安装流程2.了解HBase的工作原理实验原理HBase是一个分布式的,面向列的开源数据库,该技术来源于Fay Chang所撰写的Google论文”Bigtable:一个结构化数据的分布式存储系统“。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列而不是基于行模式。在需要实原创 2018-02-01 11:58:20 · 292 阅读 · 0 评论 -
3.3电商评论数据清洗
实验3.3电商评论数据清洗字体:1.数据清洗概述数据清洗是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,原创 2018-02-01 11:55:17 · 4288 阅读 · 1 评论 -
2.爬取电商数据
使用webmagic爬取电商评论数据字体:1.什么是爬虫网络爬虫,也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。网络搜索引擎等站点通过爬虫软件更新自身的网站内容或其对其他网站的索引。网络爬虫可以将自己所访问的页面保存下来,以便搜索引擎事后生成索引供用户搜索。爬虫访问网站的过程会消耗目标系统资源。不少网络系统并不默许爬虫工作。因此在访问大量页面时,爬虫...原创 2018-02-01 11:53:46 · 10441 阅读 · 0 评论