大数据
时空恋旅人
坚持不懈的学习态度和坚韧的人生品质
展开
-
CentOS7安装mysql5.6
1.安装CentOS7 安装的步骤可以参考这里:https://www.osyunwei.com/archives/7829.html 注意:网络适配器选择NAT 安装好了就启动修改配置文件:/etc/sysconfig/network-scripts/ifcfg-ens33 TYPE=Ethernet P...原创 2018-11-15 16:25:53 · 1839 阅读 · 0 评论 -
hadoop04--(mapreduce增强)
1.mapreduce的运行流程一个mr程序启动的时候,最先启动的是MRAppMaster,MRAppMaster启动后根据本次job的描述信息,计算出需要的maptask实例数量(切片),然后向集群申请机器启动相应数量的maptask进程 maptask进程启动之后,根据给定的数据切片范围进行数据处理,主体流程为: 利用客户指定的inputformat来获取RecordReader读取数...原创 2018-12-09 17:42:14 · 143 阅读 · 0 评论 -
hadoop--02(hdfs详解)
1.HDFS的概念和特性 首先,它是一个文件系统,用于存储文件,通过统一的命名空间——目录树来定位文件其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色;重要特性如下:HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置参数( dfs.blocksize)来规定,默认大小在hadoop2.x版本中是128M,老版本中是64M HDFS文...原创 2018-12-01 20:53:02 · 180 阅读 · 0 评论 -
hadoop03--(mapreduce)
1.MAPREDUCE原理篇Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架;Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上;2. MAPREDUCE框架结构及核心运行机制 1.结构: 一个完整的mapreduce程序在分布式运行时有三...原创 2018-12-02 18:21:19 · 561 阅读 · 0 评论 -
流式计算--整合kafka+flume+storm
本篇博客基于之前搭建的kafka集群和storm集群1.数据流向 日志系统=>flume=>kafka=>storm 2.安装flume 1.我们在storm01上安装flume1.6.0,上传安装包 2.解压到 /export/servers/flume,首先创建文件夹flume 命令: sudo tar...原创 2018-11-18 16:28:24 · 530 阅读 · 0 评论 -
流式计算--kafka2(java api操作kafka)
本篇博客基于kafka集群搭建,在此基础上操作 1.新建maven工程添加依赖: <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka_2.12</artifactId> ...原创 2018-11-17 17:49:45 · 899 阅读 · 0 评论 -
流式计算--storm3(Storm单词技术案例)
功能说明:设计一个topology,来实现对文档里面的单词出现的频率进行统计。本篇博客是在storm概念讲解和storm集群搭建的基础上来的 1.创建一个maven项目: 添加以来如下: <dependency> <groupId>org.apache.storm</groupId> ...原创 2018-11-17 15:57:30 · 248 阅读 · 0 评论 -
ElasticSearch集群的插件安装
1.Head插件安装: 本篇博客是在上一篇ElasticSearch集群的搭建的基础上来的,head是es的一个可视化工具 憋说话!!!照着做: #更新 sudo yum update -y sudo rpm -ivh http://dl.fedoraproject.org/pub/epel/epel-release-latest-...原创 2018-11-16 17:13:04 · 602 阅读 · 0 评论 -
ElasticSearch集群的搭建
1.环境 CentOS7 jdk1.8 elasticsearch 5.4.3 首先在已经装好CentOS7的基础上克隆三台机器,要想克隆后继续克隆需要给机器装备CentOS镜像 2.首先单节点安装ES 上传ES安装包 创建普通的用户,赋予权限 #es启动时需要使用非root用户,所有创建一个node1用户: ...原创 2018-11-16 16:26:47 · 196 阅读 · 0 评论 -
流式计算--storm2(storm集群搭建)
如果对流式计算概念,核心组件,编程模型不熟悉可以参考流式计算--storm1(storm概念初识)1.环境: 机器配置:centos7 jdk8 storm 1.0 .6 zookeeper 3.4.13 1. 安装CentOS7注意:安装CentOs7,配置NAT网络,但是还没有网,没有IP地址 所以修改/etc/sysconfig...原创 2018-11-15 23:25:03 · 657 阅读 · 0 评论 -
流式计算--storm1(storm概念初识)
1.Storm是什么? Storm用来实时处理数据,特点:低延迟、高可用、分布式、可扩展、数据不丢失。提供简单容易理解的接口,便于开发。2.Storm与Hadoop的区别?Storm用于实时计算,Hadoop用于离线计算。 Storm处理的数据保存在内存中,源源不断;Hadoop处理的数据保存在文件系统中,一批一批。 Storm的数据通过网络传输进来;Hadoop的数据保存...原创 2018-11-15 22:46:46 · 690 阅读 · 0 评论 -
hadoop06--(mapreduce增强)
1.倒排索引的建立: 需求:有大量的文本(文档、网页),需要建立搜索索引 计算每个单词在每个文件的出现次数并且将他们排序 创建好输入的文件:思路:一行一行的读,拿到单词,并且拿到文件名字,将单词和文件名字合并在一起作为key输出,然后在reduce端统计即可第一次输出的结果:第二次的输出结果:代码: package com.wx.m...原创 2019-01-14 22:26:12 · 190 阅读 · 0 评论