![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据相关技术
文章平均质量分 55
JavaPub-rodert
技术&自媒体,专注于面试技巧,擅长Java、Go、MySQL、区块链
展开
-
Hadoop 压缩文件命令
Hadoop 压缩文件命令 hadoop jar /usr/bin/hadoop/software/hadoop/share/hadoop/tools/lib/hadoop-streaming-2.7.2.4.jar \ -Dmapred.reduce.tasks=5 \ -Dmapred.output.compress=true \ -Dmapred.compress.map.output=true \ -Dmapred.output.co原创 2022-03-20 22:26:16 · 2898 阅读 · 0 评论 -
Springboot2.x整合ElasticSearch7.x实战(二)
本教程是系列教程,对于初学者可以对 ES 有一个整体认识和实践实战。 还没开始的同学,建议先读一下系列攻略目录:Springboot2.x整合ElasticSearch7.x实战目录 本篇幅是继上一篇 Springboot2.x整合ElasticSearch7.x实战(一) ,适合初学 Elasticsearch 的小白,可以跟着整个教程做一个练习。 第三章 分词器安装 使用搜索,少不了使用分词器,elasticsearch 自带了一些简单分词器,也可以使用第三方分词器插件,如 ik、pinyin 等。 S原创 2020-12-22 19:22:26 · 937 阅读 · 0 评论 -
数据挖掘十大算法
https://www.cnblogs.com/liulunyang/p/3868808.html转载 2019-02-21 22:19:20 · 298 阅读 · 0 评论 -
【转载】大数据学习路线图
简要分析: 1、Java编程技术 Java编程技术是大数据学习的基础,Java是一种强类型语言,拥有极高的跨平台能力,可以编写桌面应用程序、Web应用程序、分布式系统和嵌入式系统应用程序等,是大数据工程师最喜欢的编程工具,因此,想学好大数据,掌握Java基础是必不可少的。 2、Linux命令 对于大数据开发通常是在Linux环境下进行的,相比Linux操作系统,Window...原创 2018-12-07 21:22:25 · 382 阅读 · 0 评论 -
【转载】大数据各技术环境搭建
Hadoop环境:https://blog.csdn.net/a123demi/article/details/70652959 Hive搭建:https://blog.csdn.net/a123demi/article/details/72742279转载 2018-12-03 11:53:41 · 337 阅读 · 0 评论 -
【转载】大数据学习地址
Hive:https://www.cnblogs.com/qingyunzong/p/8707885.html转载 2018-12-03 11:40:40 · 315 阅读 · 0 评论 -
【转载】Hadoop产品介绍
http://blog.fens.me/hadoop-family-roadmap/ Apache Hadoop: 是Apache开源组织的一个分布式计算开源框架,提供了一个分布式文件系统子项目(HDFS)和支持MapReduce分布式计算的软件架构。 Apache Hive: 是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,通过类SQL语句快速实现简单的Ma...转载 2018-12-03 11:05:17 · 632 阅读 · 0 评论 -
【转载】大数据学习路线(完整版)
https://blog.csdn.net/csdn_fzs/article/category/7384324 大数据学习路线 java(Java se,javaweb)Linux(shell,高并发架构,lucene,solr)Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume)机器学习(R,mahout)Sto...转载 2018-12-03 10:19:45 · 812 阅读 · 0 评论 -
【转载】kafka入门练习
http://www.cnblogs.com/qizhelongdeyang/p/7354183.html 特别提醒,跟着教程练习,使用对应版本转载 2018-11-30 11:33:05 · 314 阅读 · 0 评论 -
Hadoop生态系统介绍(二)大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍
1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 具有可靠、高效、可伸缩的特点。 Hadoop的核心是YARN,HDFS和Mapreduce 下图是hadoop生态系统,集成spark生态圈。在未来一段时间内,hadoop将于spark共存,ha...原创 2018-11-23 00:00:54 · 463 阅读 · 0 评论 -
Hadoop生态系统介绍(一)
Hadoop生态系统介绍 分类: Hadoop2014-02-22 16:27 4630人阅读 评论(2) 收藏 举报 hadoophadoop总述 目录(?)[+] 1、Hadoop生态系统概况 Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。 Hadoop的核心是HDFS和Mapreduce,hadoop2.0还包括YARN。 下图为hadoop的...原创 2018-11-22 23:53:44 · 354 阅读 · 0 评论 -
运行Hadoop自带的wordcount单词统计程序
2018.11.19测试,可行 0.前言 前面一篇《Hadoop初体验:快速搭建Hadoop伪分布式环境》搭建了一个Hadoop的环境,现在就使用Hadoop自带的wordcount程序来做单词统计的案例。 http://www.linuxidc.com/Linux/2017-09/146694.htm 1.使用示例程序实现单词统计 (1)wordcount程序 ...原创 2018-11-19 16:59:31 · 1890 阅读 · 0 评论 -
kafka实战
原地址:https://www.cnblogs.com/hei12138/p/7805475.html 1. kafka介绍 1.1. 主要功能 根据官网的介绍,ApacheKafka®是一个分布式流媒体平台,它主要有3种功能: 1:It lets you publish and subscribe to streams of records.发布和订阅消...转载 2018-10-29 22:02:35 · 511 阅读 · 0 评论