自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据基础入门教程

大数据基础入门教程

  • 博客(28)
  • 收藏
  • 关注

原创 玩转大数据开发套件--(2)

目前大数据工具林林总总,能解决的问题各方各面,但是在真正落地到企业的时候却往往因使用问题遇到障碍。为此星环针对使用体验上的需求打造大数据开发套件Transwarp Studio,深化大数据技术的应用,在数字化浪潮下推动大数据技术对产业的赋能。本文将继续介绍Studio 5.1中的三个工具:高吞吐低延迟的日志存储分析工具Milano、界面化的全新数据流同步工具Transporter、以及功能再升...

2020-04-25 18:57:37 2279

原创 玩转大数据开发工具--(1)

为了降低大数据应用开发的门槛,简化开发过程,星环随Transwarp Data Hub 5.0开发出了大数据开发套件Transwarp Studio。Studio由一套PaaS产品构成,提供从提取、存储、计算、展示的全链路大数据开发服务,全面覆盖大数据开发流水线上的各项环节,为开发人员带来流畅的数据分析体验。随着TDH 5.1的发布与性能提升,Studio各个产品也获得了核心性的改进和升级,并...

2020-04-25 18:48:20 1372

原创 HBase常见运维工具整理

HBase自带许多运维工具,为用户提供管理、分析、修复和调试功能,这些工具一部分的入口是hbase shell 客户端,另一部分是在hbase的Jar包中。大多数可通过执行以下形式的命令实现: hbase [<options>] <command> [<args>] 本文将列举一些常用HBase工具,开发人员和运维人员可以参考本文内容,...

2020-04-25 18:30:29 2334 1

原创 大数据开发必备技能

大数据必备技能详细因为笔者本身是偏Java应用方向的,所以整理的大数据必备技能详细,也是偏向于大数据工程师方向。总共分为五大部分,分别是: 大数据技术基础 离线计算Hadoop 流式计算Storm 内存计算Spark 机器学习算法 大数据技术基础linux操作基础 linux系统简介与安装 linux常用命令–文件操作 ...

2020-04-24 14:32:08 1262

原创 怎样系统规划大数据学习之路?

大数据的领域非常广泛,往往使想要开始学习大数据及相关技术的人望而生畏。大数据技术的种类众多,这同样使得初学者难以选择从何处下手。这正是我想要撰写本文的原因。本文将为你开始学习大数据的征程以及在大数据产业领域找到工作指明道路,提供帮助。目前我们面临的最大挑战就是根据我们的兴趣和技能选定正确的角色。为了解决这个问题,我在本文详细阐述了每个与大数据有关的角色,同时考量了工程师以及计算机科学毕业生...

2020-04-24 14:31:52 904

原创 大数据入门必读好书推荐

身处于一个大数据时代,大数据无疑是近期最时髦的词汇了。不管是云计算、社交网络,还是物联网、移动互联网和智慧城市,都要与大数据搭上联系。随着云计算、移动互联网和物联网等新一代信息技术的创新和应用普及。学习大数据,除了网课,一些经典的技术书籍是非常实用且有帮助的。为了跟上技术更迭的节奏,不落人后,最好的方式是继续刷新自己的知识,同时保持上手的经验。在这行业中要取得成功,需要完美的项目经验和技...

2020-04-24 14:31:42 1430

原创 大数据开发之入门java基础教程

什么是编程思想?所谓的编程思想,简单的说,就是程序员的思考方式。程序员在编程的时候,需要按照一定的思考方式,把需求变成具体的代码,这种思考方式,就是编程思想。如何转变思想?例如:去饭店吃饭,饭店有会员卡。消费300办会员卡的前提条件:近期内会不会再去。例如:逛超市 满100减20 或 所有产品打9折方式1:满100减20方式2:所有产品打9折消费90元方式1结果 ...

2020-04-23 20:34:15 1912

原创 Java编程新手入门要多久

1.Java是什么?Java是一门面向对象编程语言,不仅吸收了C++语言的各种优点,还摒弃了C++里难以理解的多继承、指针等概念,因此Java语言具有功能强大和简单易用两个特征。Java语言作为静态面向对象编程语言的代表,极好地实现了面向对象理论,允许程序员以优雅的思维方式进行复杂的编程 。Java具有简单性、面向对象、分布式、健壮性、安全性、平台独立与可移植性、多线程、动态性等特点 。J...

2020-04-23 20:23:02 883

原创 【大数据开发】Hadoop的高级编程 (二)

MR模板优化public class WordCountUpMR extends Configured implements Tool;int status = ToolRunner.run(configuration,new WordCountUpMR(),args);import com.google.common.collect.Lists;import org.apache....

2020-04-23 19:52:06 764

原创 【大数据开发】Hadoop的高级编程 (一)

第一小节:如何学好这一章 1.Linux基础 2.Java编程 3.大数据核心组件,hadoop安装,部署,配置等等第二小节:构建工程 1.新建工程 2.新建工程变成maven工程 3.安装配置maven环境,编辑setting文件 4.idea工具配置maven 5.编辑pom.xml文件 <properties>...

2020-04-23 19:44:56 1371

原创 一样的Java,不一样的HDInsight大数据开发体验

1首先开始科普 什么是HDInsight Azure HDInsight是Hortonworks Data Platform (HDP)提供的Hadoop组件的云发行版,适用于对计算机集群上的大数据集进行分布式处理和分析。目前HDInsight可提供以下集群类型:Apache Hadoop、Apache Spark、Apache HBase、Apache Storm、Ap...

2020-04-22 23:38:41 822

原创 Java大数据开发之HDFS详解

Java+大数据开发——HDFS详解1. HDFS 介绍 •什么是HDFS 首先,它是一个文件系统,用于存储文件,通过统一的命名空间——目录树来定位文件。 其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色;•设计思想 分而治之:将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析;...

2020-04-22 21:23:16 1025

原创 大数据开发 | MapReduce

1. MapReduce 介绍 1.1MapReduce的作用假设有一个计算文件中单词个数的需求,文件比较多也比较大,在单击运行的时候机器的内存受限,磁盘受限,运算能力受限,而一旦将单机版程序扩展到集群来分布式运行,将极大增加程序的复杂度和开发难度,因此这个工作可能完成不了。针对以上这个案例,MapReduce在这里能起到什么作用呢,引入MapReduce框架后,开发人员可以将绝大部分工...

2020-04-22 14:58:44 2393

原创 Java学习必备书籍推荐终极版!

很早就想把 JavaGuide 的书单更新一下了,昨晚加今天早上花了几个时间对之前的书单进行了分类和补充完善。虽是终极版,但一定还有很多不错的 Java 书籍我没有添加进去,会继续完善下去。希望这篇文章对你有帮助,不要再无书可看。欢迎在留言区补充你觉得不错的 Java 方向的书籍或者计算机基础必看的书籍!你也可以直接阅读原文在Github给我提PR,参与这个书单的完善。Java基础...

2020-04-22 13:31:47 346

原创 成为卓越数据科学家必备的 13 项技能

一周前,我在 LinkedIn 上问了一个问题:优秀的数据科学家与卓越的数据科学家之间的区别是什么? 令人惊讶的是,我得到了来自各行各业的许多顶尖数据科学家的积极反馈。我发现这非常实用和有趣。为了进一步了解二者间的区别,我一直在网上寻找答案……直到发现了这篇文章——《成为数据科学家必备的九项技能》(https://www.kdnuggets.com/2018/05/simplilearn...

2020-04-21 22:12:14 332

原创 从数据仓库到大数据,数据平台这25年是怎样进化的?

数据产品&数据分析总监,2000年开始从事数据领域,从业传统制造业、银行、保险、第三方支付&互联网金融、在线旅行、移动互联网行业 。我是从2000年开始接触数据仓库,大约08年开始进入互联网行业。很多从传统企业数据平台转到互联网同学是否有感觉:非互联网企业、互联网企业的数据平台所面向用户群体是不同的。那么,这两类的数据平台的建设、使用用户又有变化?数据模型设计又有什么不同呢?我...

2020-04-21 17:54:25 1512

原创 如何成为一名大数据开发工程师,工作经验总结

如何成为一名大数据开发工程师,工作经验总结原画心旗2019-11-06 13:35:22首先,我个人进入大数据行业也纯属偶然,当年实习的时候做的是纯纯的Java开发,后来正式毕业了以后找了份Java开发的工作,本以为和大多数Java猿一样天天搞增删改查了,但是巧的是搞好部门有个做大数据开发的离职了,数据开发缺人手,然后领导就让我顶上了。刚开始什么Hadoop,HDFS也是各种不懂,只会写...

2020-04-21 13:54:09 2131 1

原创 大数据开发|Hadoop分布式集群环境构建

一直想编写一系列有关大数据开发、数据挖掘、云计算等相关课程的学习资料,为零基础又想从事大数据行业的小伙伴提供一些参考。今天第一篇《Hadoop分布式集群环境构建(1)》终于和大家见面了。一集群主机规划二软件安装包准备会将软件所有安装包放入百度云盘,以供大家方便下载。链接:http://pan.baidu.com/s/1i5CdjI9 密码:f7rn三安装环境准备...

2020-04-21 13:34:06 316

原创 非科班大数据开发学习路线

第一阶段:Java部分Java基础、JVM、并发、数据库、缓存、设计模式、计算机网络、操作系统、Linux第二阶段:大数据框架MapReduce、YARN、HDFS、HBase、Hive、Zookeeper、Spark、Storm、Flink、Kafka第三阶段:面试就业封装项目、面经、简历、面试流程、软素质、实习、offer选择第一阶段:Java部分因为我是非科班,没有任何Java...

2020-04-20 12:55:53 688

原创 Java大数据技术学习指南与成长路线

对于普通在校大学生来说,参加岗前实训能够有效的把理论和实践结合起来,快速获得动手能力的提升并到达企业对于软件工程师的技能要求,从而获得更高的职业起点和更好的职业发展前景的有效途径。Java发展成熟、功能强大、使用Java开发的大数据框架非常多,而且在企业部署也非常多。即使有的大数据框架不是使用Java开发(例如spark),但是其还是运行在Java虚拟机上,那么Java就成了大数据时代的项目实战首...

2020-04-19 23:28:15 1604

原创 本科生自学Java大数据成功入职外企:大数据值得转吗?门槛高吗?

我今年大四,大二的时候先后在厦门的两家小公司实习 Java,大三的时候在 Apche Kylin 的贡献团队 Kyligence 实习,现在在一家西班牙集团就职大数据开发。由于一路都是自己摸爬滚打过来的,而我又是一个喜欢总结且善于总结,喜欢分享且善于抽象事物的人,所以分享一些学习路线、面试经验、学习资料以及我在实习过程中总结的一些东西。01为什么要学习大数据?在我第一份实习的时候,...

2020-04-19 23:28:00 1023 1

原创 2020年大数据学习路线指南

大数据是对海量数据进行存储、计算、统计、分析处理的一系列处理手段,处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据处理手段所无法完成的,其涉及的技术有分布式计算、高并发处理、高可用处理、集群、实时性计算等,汇集了当前IT领域热门流行的IT技术。大数据入门,需要学习以下这些知识点:先附上一张自己总结的学习线路图1、Java编程技术Java编程技术是大数据学...

2020-04-16 13:58:50 303

原创 淘宝,滴滴,美团各大厂是如何搭建大数据平台架构的?

今天我们来看一下淘宝、美团和滴滴的大数据平台,一方面进一步学习大厂大数据平台的架构,另一方面也学习大厂的工程师如何画架构图。通过大厂的这些架构图,你就会发现,不但这些知名大厂的大数据平台设计方案大同小异,架构图的画法也有套路可以寻觅。淘宝大数据平台淘宝可能是中国互联网业界较早搭建了自己大数据平台的公司,下图是淘宝早期的Hadoop 大数据平台,比较典型。淘宝的大数据平台基本也是分成...

2020-04-16 13:52:43 1310

原创 大数据开发工程师,必须掌握的开发流程图是这样的

1、大数据流程图2、大数据各个环节主要技术2.1、数据处理主要技术Sqoop:(发音:skup)作为一款开源的离线数据传输工具,主要用于Hadoop(Hive) 与传统数据库(MySql,PostgreSQL)间的数据传递。它可以将一个关系数据库中数据导入Hadoop的HDFS中,也可以将HDFS中的数据导入关系型数据库中。Flume:实时数据采集的一个开源...

2020-04-14 23:06:27 705

原创 大数据开发:Flink入门(三)——环境与部署

flink是一款开源的大数据流式处理框架,他可以同时批处理和流处理,具有容错性、高吞吐、低延迟等优势,本文简述flink在windows和linux中安装步骤,和示例程序的运行,包括本地调试环境,集群环境。另外介绍Flink的开发工程的构建。首先要想运行Flink,我们需要下载并解压Flink的二进制包,下载地址如下:https://flink.apache.org/downloads.htm...

2020-04-14 19:44:04 372

原创 大数据开发:Flink入门(四)——编程模型

flink是一款开源的大数据流式处理框架,他可以同时批处理和流处理,具有容错性、高吞吐、低延迟等优势,本文简述flink的编程模型。数据集类型: 无穷数据集:无穷的持续集成的数据集合 有界数据集:有限不会改变的数据集合 常见的无穷数据集有: 用户与客户端的实时交互数据 应用实时产生的日志 金融市场的实时交易记录 … 数据运算模型有哪些...

2020-04-14 19:42:31 448

原创 Scala学习系列(一)——Scala为什么是大数据第一高薪语言

为什么是Scala虽然在大数据领域Java的使用更普及,Python也有后来居上的势头,但Scala一直有着不可动摇的地位。我们熟悉的Spark,Kafka,Flink都是由Scala完成了其核心代码的开发。所以掌握Scala不仅可以学习大数据组件的源码,而且会极大的提升大数据开发的效率。这也是Scala的薪资水平一直遥遥领先的原因。根据2019年全球编程语言薪资统计,排名前几...

2020-04-14 19:38:53 274

原创 大数据案例 -- 互联网日志实时收集和实时计算的简单方案

作为互联网公司,网站监测日志当然是数据的最大来源。我们目前的规模也不大,每天的日志量大约1TB。后续90%以上的业务都是需要基于日志来完成,之前,业务中对实时的要求并不高,最多也就是准实时(延迟半小时以上),因此,我们使用Flume将数据收集到HDFS,然后进行清洗和分析。后来,根据业务需要,我们有了两个Hadoop集群,并且部署在不同的地方(北京和西安),而所有的日志收集服务器在北京,因此需...

2020-04-14 19:33:44 269

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除