自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据基础入门教程

大数据基础入门教程

  • 博客(226)
  • 收藏
  • 关注

原创 玩转大数据开发套件--(2)

目前大数据工具林林总总,能解决的问题各方各面,但是在真正落地到企业的时候却往往因使用问题遇到障碍。为此星环针对使用体验上的需求打造大数据开发套件Transwarp Studio,深化大数据技术的应用,在数字化浪潮下推动大数据技术对产业的赋能。本文将继续介绍Studio 5.1中的三个工具:高吞吐低延迟的日志存储分析工具Milano、界面化的全新数据流同步工具Transporter、以及功能再升...

2020-04-25 18:57:37 1856

原创 玩转大数据开发工具--(1)

为了降低大数据应用开发的门槛,简化开发过程,星环随Transwarp Data Hub 5.0开发出了大数据开发套件Transwarp Studio。Studio由一套PaaS产品构成,提供从提取、存储、计算、展示的全链路大数据开发服务,全面覆盖大数据开发流水线上的各项环节,为开发人员带来流畅的数据分析体验。随着TDH 5.1的发布与性能提升,Studio各个产品也获得了核心性的改进和升级,并...

2020-04-25 18:48:20 940

原创 HBase常见运维工具整理

HBase自带许多运维工具,为用户提供管理、分析、修复和调试功能,这些工具一部分的入口是hbase shell 客户端,另一部分是在hbase的Jar包中。大多数可通过执行以下形式的命令实现: hbase [<options>] <command> [<args>] 本文将列举一些常用HBase工具,开发人员和运维人员可以参考本文内容,...

2020-04-25 18:30:29 1563 1

原创 大数据开发必备技能

大数据必备技能详细因为笔者本身是偏Java应用方向的,所以整理的大数据必备技能详细,也是偏向于大数据工程师方向。总共分为五大部分,分别是: 大数据技术基础 离线计算Hadoop 流式计算Storm 内存计算Spark 机器学习算法 大数据技术基础linux操作基础 linux系统简介与安装 linux常用命令–文件操作 ...

2020-04-24 14:32:08 986

原创 怎样系统规划大数据学习之路?

大数据的领域非常广泛,往往使想要开始学习大数据及相关技术的人望而生畏。大数据技术的种类众多,这同样使得初学者难以选择从何处下手。这正是我想要撰写本文的原因。本文将为你开始学习大数据的征程以及在大数据产业领域找到工作指明道路,提供帮助。目前我们面临的最大挑战就是根据我们的兴趣和技能选定正确的角色。为了解决这个问题,我在本文详细阐述了每个与大数据有关的角色,同时考量了工程师以及计算机科学毕业生...

2020-04-24 14:31:52 812

原创 大数据入门必读好书推荐

身处于一个大数据时代,大数据无疑是近期最时髦的词汇了。不管是云计算、社交网络,还是物联网、移动互联网和智慧城市,都要与大数据搭上联系。随着云计算、移动互联网和物联网等新一代信息技术的创新和应用普及。学习大数据,除了网课,一些经典的技术书籍是非常实用且有帮助的。为了跟上技术更迭的节奏,不落人后,最好的方式是继续刷新自己的知识,同时保持上手的经验。在这行业中要取得成功,需要完美的项目经验和技...

2020-04-24 14:31:42 1245

原创 大数据开发之入门java基础教程

什么是编程思想?所谓的编程思想,简单的说,就是程序员的思考方式。程序员在编程的时候,需要按照一定的思考方式,把需求变成具体的代码,这种思考方式,就是编程思想。如何转变思想?例如:去饭店吃饭,饭店有会员卡。消费300办会员卡的前提条件:近期内会不会再去。例如:逛超市 满100减20 或 所有产品打9折方式1:满100减20方式2:所有产品打9折消费90元方式1结果 ...

2020-04-23 20:34:15 1438

原创 Java编程新手入门要多久

1.Java是什么?Java是一门面向对象编程语言,不仅吸收了C++语言的各种优点,还摒弃了C++里难以理解的多继承、指针等概念,因此Java语言具有功能强大和简单易用两个特征。Java语言作为静态面向对象编程语言的代表,极好地实现了面向对象理论,允许程序员以优雅的思维方式进行复杂的编程 。Java具有简单性、面向对象、分布式、健壮性、安全性、平台独立与可移植性、多线程、动态性等特点 。J...

2020-04-23 20:23:02 788

原创 【大数据开发】Hadoop的高级编程 (二)

MR模板优化public class WordCountUpMR extends Configured implements Tool;int status = ToolRunner.run(configuration,new WordCountUpMR(),args);import com.google.common.collect.Lists;import org.apache....

2020-04-23 19:52:06 672

原创 【大数据开发】Hadoop的高级编程 (一)

第一小节:如何学好这一章 1.Linux基础 2.Java编程 3.大数据核心组件,hadoop安装,部署,配置等等第二小节:构建工程 1.新建工程 2.新建工程变成maven工程 3.安装配置maven环境,编辑setting文件 4.idea工具配置maven 5.编辑pom.xml文件 <properties>...

2020-04-23 19:44:56 1228

原创 一样的Java,不一样的HDInsight大数据开发体验

1首先开始科普 什么是HDInsight Azure HDInsight是Hortonworks Data Platform (HDP)提供的Hadoop组件的云发行版,适用于对计算机集群上的大数据集进行分布式处理和分析。目前HDInsight可提供以下集群类型:Apache Hadoop、Apache Spark、Apache HBase、Apache Storm、Ap...

2020-04-22 23:38:41 658

原创 Java大数据开发之HDFS详解

Java+大数据开发——HDFS详解1. HDFS 介绍 •什么是HDFS 首先,它是一个文件系统,用于存储文件,通过统一的命名空间——目录树来定位文件。 其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色;•设计思想 分而治之:将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析;...

2020-04-22 21:23:16 842

原创 大数据开发 | MapReduce

1. MapReduce 介绍 1.1MapReduce的作用假设有一个计算文件中单词个数的需求,文件比较多也比较大,在单击运行的时候机器的内存受限,磁盘受限,运算能力受限,而一旦将单机版程序扩展到集群来分布式运行,将极大增加程序的复杂度和开发难度,因此这个工作可能完成不了。针对以上这个案例,MapReduce在这里能起到什么作用呢,引入MapReduce框架后,开发人员可以将绝大部分工...

2020-04-22 14:58:44 2278

原创 Java学习必备书籍推荐终极版!

很早就想把 JavaGuide 的书单更新一下了,昨晚加今天早上花了几个时间对之前的书单进行了分类和补充完善。虽是终极版,但一定还有很多不错的 Java 书籍我没有添加进去,会继续完善下去。希望这篇文章对你有帮助,不要再无书可看。欢迎在留言区补充你觉得不错的 Java 方向的书籍或者计算机基础必看的书籍!你也可以直接阅读原文在Github给我提PR,参与这个书单的完善。Java基础...

2020-04-22 13:31:47 241

原创 成为卓越数据科学家必备的 13 项技能

一周前,我在 LinkedIn 上问了一个问题:优秀的数据科学家与卓越的数据科学家之间的区别是什么? 令人惊讶的是,我得到了来自各行各业的许多顶尖数据科学家的积极反馈。我发现这非常实用和有趣。为了进一步了解二者间的区别,我一直在网上寻找答案……直到发现了这篇文章——《成为数据科学家必备的九项技能》(https://www.kdnuggets.com/2018/05/simplilearn...

2020-04-21 22:12:14 192

原创 从数据仓库到大数据,数据平台这25年是怎样进化的?

数据产品&数据分析总监,2000年开始从事数据领域,从业传统制造业、银行、保险、第三方支付&互联网金融、在线旅行、移动互联网行业 。我是从2000年开始接触数据仓库,大约08年开始进入互联网行业。很多从传统企业数据平台转到互联网同学是否有感觉:非互联网企业、互联网企业的数据平台所面向用户群体是不同的。那么,这两类的数据平台的建设、使用用户又有变化?数据模型设计又有什么不同呢?我...

2020-04-21 17:54:25 648

原创 如何成为一名大数据开发工程师,工作经验总结

如何成为一名大数据开发工程师,工作经验总结原画心旗2019-11-06 13:35:22首先,我个人进入大数据行业也纯属偶然,当年实习的时候做的是纯纯的Java开发,后来正式毕业了以后找了份Java开发的工作,本以为和大多数Java猿一样天天搞增删改查了,但是巧的是搞好部门有个做大数据开发的离职了,数据开发缺人手,然后领导就让我顶上了。刚开始什么Hadoop,HDFS也是各种不懂,只会写...

2020-04-21 13:54:09 1669 1

原创 大数据开发|Hadoop分布式集群环境构建

一直想编写一系列有关大数据开发、数据挖掘、云计算等相关课程的学习资料,为零基础又想从事大数据行业的小伙伴提供一些参考。今天第一篇《Hadoop分布式集群环境构建(1)》终于和大家见面了。一集群主机规划二软件安装包准备会将软件所有安装包放入百度云盘,以供大家方便下载。链接:http://pan.baidu.com/s/1i5CdjI9 密码:f7rn三安装环境准备...

2020-04-21 13:34:06 212

原创 非科班大数据开发学习路线

第一阶段:Java部分Java基础、JVM、并发、数据库、缓存、设计模式、计算机网络、操作系统、Linux第二阶段:大数据框架MapReduce、YARN、HDFS、HBase、Hive、Zookeeper、Spark、Storm、Flink、Kafka第三阶段:面试就业封装项目、面经、简历、面试流程、软素质、实习、offer选择第一阶段:Java部分因为我是非科班,没有任何Java...

2020-04-20 12:55:53 555

原创 Java大数据技术学习指南与成长路线

对于普通在校大学生来说,参加岗前实训能够有效的把理论和实践结合起来,快速获得动手能力的提升并到达企业对于软件工程师的技能要求,从而获得更高的职业起点和更好的职业发展前景的有效途径。Java发展成熟、功能强大、使用Java开发的大数据框架非常多,而且在企业部署也非常多。即使有的大数据框架不是使用Java开发(例如spark),但是其还是运行在Java虚拟机上,那么Java就成了大数据时代的项目实战首...

2020-04-19 23:28:15 1117

原创 本科生自学Java大数据成功入职外企:大数据值得转吗?门槛高吗?

我今年大四,大二的时候先后在厦门的两家小公司实习 Java,大三的时候在 Apche Kylin 的贡献团队 Kyligence 实习,现在在一家西班牙集团就职大数据开发。由于一路都是自己摸爬滚打过来的,而我又是一个喜欢总结且善于总结,喜欢分享且善于抽象事物的人,所以分享一些学习路线、面试经验、学习资料以及我在实习过程中总结的一些东西。01为什么要学习大数据?在我第一份实习的时候,...

2020-04-19 23:28:00 667

原创 2020年大数据学习路线指南

大数据是对海量数据进行存储、计算、统计、分析处理的一系列处理手段,处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据处理手段所无法完成的,其涉及的技术有分布式计算、高并发处理、高可用处理、集群、实时性计算等,汇集了当前IT领域热门流行的IT技术。大数据入门,需要学习以下这些知识点:先附上一张自己总结的学习线路图1、Java编程技术Java编程技术是大数据学...

2020-04-16 13:58:50 239

原创 淘宝,滴滴,美团各大厂是如何搭建大数据平台架构的?

今天我们来看一下淘宝、美团和滴滴的大数据平台,一方面进一步学习大厂大数据平台的架构,另一方面也学习大厂的工程师如何画架构图。通过大厂的这些架构图,你就会发现,不但这些知名大厂的大数据平台设计方案大同小异,架构图的画法也有套路可以寻觅。淘宝大数据平台淘宝可能是中国互联网业界较早搭建了自己大数据平台的公司,下图是淘宝早期的Hadoop 大数据平台,比较典型。淘宝的大数据平台基本也是分成...

2020-04-16 13:52:43 1047

原创 大数据开发工程师,必须掌握的开发流程图是这样的

1、大数据流程图2、大数据各个环节主要技术2.1、数据处理主要技术Sqoop:(发音:skup)作为一款开源的离线数据传输工具,主要用于Hadoop(Hive) 与传统数据库(MySql,PostgreSQL)间的数据传递。它可以将一个关系数据库中数据导入Hadoop的HDFS中,也可以将HDFS中的数据导入关系型数据库中。Flume:实时数据采集的一个开源...

2020-04-14 23:06:27 392

原创 大数据开发:Flink入门(三)——环境与部署

flink是一款开源的大数据流式处理框架,他可以同时批处理和流处理,具有容错性、高吞吐、低延迟等优势,本文简述flink在windows和linux中安装步骤,和示例程序的运行,包括本地调试环境,集群环境。另外介绍Flink的开发工程的构建。首先要想运行Flink,我们需要下载并解压Flink的二进制包,下载地址如下:https://flink.apache.org/downloads.htm...

2020-04-14 19:44:04 213

原创 大数据开发:Flink入门(四)——编程模型

flink是一款开源的大数据流式处理框架,他可以同时批处理和流处理,具有容错性、高吞吐、低延迟等优势,本文简述flink的编程模型。数据集类型: 无穷数据集:无穷的持续集成的数据集合 有界数据集:有限不会改变的数据集合 常见的无穷数据集有: 用户与客户端的实时交互数据 应用实时产生的日志 金融市场的实时交易记录 … 数据运算模型有哪些...

2020-04-14 19:42:31 330

原创 Scala学习系列(一)——Scala为什么是大数据第一高薪语言

为什么是Scala虽然在大数据领域Java的使用更普及,Python也有后来居上的势头,但Scala一直有着不可动摇的地位。我们熟悉的Spark,Kafka,Flink都是由Scala完成了其核心代码的开发。所以掌握Scala不仅可以学习大数据组件的源码,而且会极大的提升大数据开发的效率。这也是Scala的薪资水平一直遥遥领先的原因。根据2019年全球编程语言薪资统计,排名前几...

2020-04-14 19:38:53 179

原创 大数据案例 -- 互联网日志实时收集和实时计算的简单方案

作为互联网公司,网站监测日志当然是数据的最大来源。我们目前的规模也不大,每天的日志量大约1TB。后续90%以上的业务都是需要基于日志来完成,之前,业务中对实时的要求并不高,最多也就是准实时(延迟半小时以上),因此,我们使用Flume将数据收集到HDFS,然后进行清洗和分析。后来,根据业务需要,我们有了两个Hadoop集群,并且部署在不同的地方(北京和西安),而所有的日志收集服务器在北京,因此需...

2020-04-14 19:33:44 173

原创 大数据Storm相比于Spark、Hadoop有哪些优势

摘要:一、可能很多初学大数据的伙伴不知道strom是什么,先给大家介绍一下strom:分布式实时计算系统,storm对于实时计算的意义类似于hadoop对于批处理的意义。一、可能很多初学大数据的伙伴不知道strom是什么,先给大家介绍一下strom:分布式实时计算系统,storm对于实时计算的意义类似于hadoop对于批处理的意义。storm的适用场景。流数据处理。Storm可以用来处...

2020-03-24 21:59:54 128

原创 10个最佳的大数据处理编程语言

大数据的浪潮仍在继续。它渗透到了几乎所有的行业,信息像洪水一样地席卷企业,使得软件越发庞然大物,比如Excel看上去就变得越来越笨拙。数据处理不再无足轻重,并且对精密分析和强大又实时处理的需要变得前所未有的巨大。那么,在巨大的数据集中进行筛选的最好工具是什么?通过和数据骇客的交流,我们知道了他们用于硬核数据分析最喜欢的语言和工具包。1、R语言在这些语言名单中,如果R语言排第二,那就没其...

2020-03-24 21:59:52 762

原创 人工智能和大数据到底有什么关系?是如何联系在一起的?

大数据和人工智能是当今最流行和最有用的两项技术。人工智能诞生于十多年前,大数据诞生于几年前。计算机可以用来存储数百万条记录和数据,但分析这些数据的能力是由大数据提供的。可以说,大数据和人工智能是两大令人惊叹的现代技术集合,为机器学习注入动能,不断重复和更新数据库,同时借助人类的干预和递归实验进行优化。本文将讲解如何通过人工智能和大数据解决与数据相关的所有可能问题。01 大数据与人工智...

2020-03-24 21:59:51 1896

原创 基于HBase和Spark构建企业级数据处理平台

场景需求和挑战面临的场景金融风控 用户画像库 爬虫抓取信息 反欺诈系统 订单数据 个性化推荐 用户行为分析 用户画像 推荐引擎 海量实时数据处理 社交Feeds 海量帖子、文章 聊天、评论 海量实时数据处理 时空时序 监控数据 轨迹、设备数据 地理信息 ...

2020-03-24 13:36:43 164

原创 大数据都有哪些技术,怎么分析?

大数据常用的分析方法1.可视化分析大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。2. 数据挖掘算法大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特...

2020-03-23 21:59:45 549

原创 企业大数据应用的架构实践和思考

大数据在业务价值方面承诺了很多,但企业可能难以确定如何部署需要利用的架构和工具。从描述性统计,到预测建模,到人工智能的一切都是由大数据提供持。而组织希望通过大数据来实现这一目标,并将决定其需要推出的工具。受益于整个大数据生态圈技术的发展和成熟,以Hadoop为核心的开源体系毋庸置疑已经成为B端大数据架构的选型标准。同时,近年来云端大数据生态的兴起,也为B端大数据应用的构建提供了非常有价值的基础性支...

2020-03-23 21:59:43 195 1

原创 揭秘大数据时代秒级查询响应引擎的架构设计

近年来,大数据技术发展迅速,从过去的 Hive、Spark,到现在的 Flink、ClickHouse、Iceberg 等,各种大数据技术推陈出新,不断演进大数据存储和引擎系统的架构,来适应大数据时代的海量数据处理需求。而随着技术的更迭,每次架构演进都需开发人员重构一次业务代码,既耗费了开发人员的精力,又会影响数据处理的效率。另外,在 PB 级数据体量下,开发人员还面临数据秒级处理与数据准确兼...

2020-03-21 21:59:48 212

原创 您应该知道的101个大数据术语

由于每天都会产生大量的数据,因此了解大数据的复杂性变得至关重要。如果您打算进入大数据星球,则应该熟悉大数据术语。这些术语将帮助您深入了解大数据世界。因此,让我们从术语大数据本身开始-由于业务专业人员,项目,从业人员和供应商以不同的方式来理解“大数据”,因此很难准确定义。因此,一般而言,大数据是: 大/大数据集(大数据集是指太大而无法在单台计算机上存储或处理的数据集),并且, 用...

2020-03-21 21:59:45 2315

原创 大数据与云计算之间的关系是怎样的?

如今,两种主流技术已成为IT领域关注的焦点-大数据和云计算。根本不同的是,大数据只涉及处理海量数据,而云计算则涉及基础架构。但是,大数据和云技术提供的简化功能是其被大量企业采用的主要原因。例如,亚马逊的“ Elastic Map Reduce”演示了如何利用Cloud Elastic Computes的功能进行大数据处理。两者的结合为组织带来了有益的结果。更不用说,这两种技术都处于发展阶段,但...

2020-03-21 21:59:43 1764

原创 大数据基础知识:Hadoop分布式系统介绍

随着智能化、万物互联时代的快速发展,数据量开始暴增,一方面我们需要开始思考如何高效可靠地存储海量的数据,另一方面我们还需要对这些数据进行分析处理,以获得更多有价值的信息。这时期我们就需要用到Hadoop了。Hadoop是Apache软件基金会下一个开源分布式计算平台,以hdfs(Hadoop Distributed File System)、MapReduce(Hadoop2.0加入...

2020-03-20 21:59:46 615

原创 985毕业大佬打造大数据学习路线

先来了解一下什么是大数据?一种规模大到在获取,存储,管理,分析方面大大超出了传统大数据的软件工具能力范围的数据集合,(数据多到爆表PB级别)数据将到达PB或者PB级别以上,从而带来的数据存储,管理,分析方面的一些新的解决方案,这些新的解决方案都属于数据的范畴,大数据其实说的不是一门技术,而是说的是数据到达这个级别以后我们对这些级别的数据,对于这些量级的数据,进行存储,管理,分析,的解...

2020-03-20 21:59:43 655

原创 Java、Python和大数据,哪个发展前景最好?

Java和Python是编程语言,而大数据则是一系列技术的整合,所以应该分开来看,三者并不能直接进行对比。三者实际的关系是目标和实现的包含关系。所以这个问题应该分别为 Java和Python哪个发展前景好?大数据的发展前景如何?关于大数据的发展前景大数据并不是一种概念,而是一种方法论,一句话概括,就是通过分析和挖掘全量的非抽样的数据辅助决策。关于大数据的...

2020-03-20 21:59:42 685 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除