自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 【大数据技术】Apache Spark 内存管理详解

Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本,阅读本文需要读者有一定的 Spark 和 Java 基础,了解 RDD、Shuff...

2019-05-14 22:00:14 273

原创 看看华为、阿里大数据架构师的必备技能!

嘘,我们只偷偷地告诉你一个人!这个秘密职业就是数据架构师在国内大数据行业大概有以下几种岗位:数据架构师、数据分析师、数据挖掘工程师、数据算法工程师和数据产品经理。接下来我们介绍第二种岗位让我们来详细地告诉你这个身份吧数据架构师负责平台的整体数据架构设计,完成从业务模型到数据模型的设计工作,根据业务功能和业务模型进行数据库建模设计,完成各种面向业务目标的数据分析模型的定义和应...

2019-05-14 22:00:06 656

原创 机器学习里面数学知识,到底对数学水平要求多高?

过去几个月里,有不少人联系我,向我表达他们对数据科学、对利用机器学习技术探索统计规律性,开发数据驱动的产品的热情。但是,我发现他们中有些人实际上缺少为了获取有用结果的必要的数学直觉和框架。这是我写这篇文章的主要原因。最近,许多好用的机器和深度学习软件变得十分易得,例如 scikit-learn,Weka,Tensorflow,等等。机器学习理论是与统计学、概率论、计算机科学、算法等方面交叉的领...

2019-05-14 21:59:56 1023

原创 学习大数据,你的职业是如何规划的?

作为IT类职业中的“大熊猫”,大数据人才(数据工程师,数据分析师,数据挖掘师,算法工程师等)、在国内人才市场可谓是一颗闪耀的新星。由于刚刚出于萌芽阶段,这个领域出现很大的人才缺口。1 大数据人才做什么?2 需要具备的能力2.1 精通SQL2.2 数据模型技能2.3 ETL设计2.4 架构项目3 知识体系机器学习基础机器学习工具3.1 大数据通用处理平台...

2019-05-14 21:59:53 5757

原创 【Bigger】如何区分三个大数据热门职业

随着大数据的愈演愈热,相关大数据的职业也成为热门,给人才发展带来带来了很多机会。数据科学家、数据工程师、数据分析师已经成为大数据行业最热门的职位。它们是如何定义的?具体是做什么工作的?需要哪些技能?让我们一起来看看吧。这3个职业是如何定位的?数据科学家是个什么样的存在数据科学家是指能采用科学方法、运用数据挖掘工具对复杂多量的数字、符号、文字、网址、音频或视频等信息进行数字化重现与认...

2019-05-14 21:59:48 253

原创 大数据是何方圣神?为什么近年来这么火?

众说纷纭大数据几年前,有幸参与大数据的研究及如何落地实操的课题,短短几年,此话题已然风生水起。何为大数据?为什么要发展大数据?大数据如何产业化?产业如何大数据化?大数据的未来会怎样?未来的大数据会怎样?……这些都是最初我们的课题内容,时至今日,部分似已清晰,部分还很模糊。关于大数据,数学家会说:我最有发言权政治家会说:游戏规则第一经济学家说:还得回归供需企业家...

2019-05-14 21:59:44 471

原创 一步一步教你如何用Python做词云

前言在大数据时代,你竟然会在网上看到的词云,例如这样的。看到之后你是什么感觉?想不想自己做一个?如果你的答案是正确的,那就不要拖延了,现在我们就开始,做一个词云分析图,Python是一个当下很流行的编程语言,你不仅可以用它做数据分析和可视化,还能用来做网站、爬取数据、做数学题、写脚本替你偷懒……如果你之前没有编程基础,没关系。希望你不要限于浏览,而是亲自动手尝试一番。到完成的那...

2019-05-12 22:01:25 1091

原创 从入门到放弃之大数据Hive

开门见山,今天说说Hive!!!什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是MapReduce3)执行程序运行...

2019-05-12 22:01:17 577

原创 从入门到放弃之大数据Hive

开门见山,今天说说Hive!!!什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是MapReduce3)执行程序运行...

2019-05-12 22:01:15 667

原创 大数据与Hadoop有什么关系?

学习着数据科学与大数据技术专业(简称大数据)的我们,对于“大数据”这个词是再熟悉不过了,而每当我们越去了解大数据就越发现有个词也会一直被提及那就是——Hadoop那Hadoop与大数据有什么关系呢?所谓大数据,就是从各种类型的数据中,快速获得有价值信息的能力。大数据是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。它是对那些超出正常处理...

2019-05-10 22:10:30 611

原创 大学计算机老师为什么不去大公司做程序员?

网友一:可能现在不少人都有这个疑问,大公司的程序员收入很高,为什么一些大学专业老师不去大公司做程序员呢?程序员工资多高啊!作为一名研发人员,同时也是一名研究生导师,我觉得大概有以下几个原因:1,到大公司做程序员是一件简单的事,但是去大学当老师却并不简单,大学老师的入门门槛要远高于公司程序员。,2,高校能提供的科研环境和氛围是大多数公司提供不了的。大公司也好,小公司也罢,核心诉求是利...

2019-05-10 22:10:23 777

原创 大数据Hadoop入门简介

hadoop是什么Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的硬件上;而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。HDFS放宽了POSIX的要求,可以以流的形式访问文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapRed...

2019-05-10 22:10:21 278

原创 大数据程序员平均薪资25k?

有机构对一线城市2018年国内科技领域热门职位薪酬范围及跳槽涨幅进行了预测:大数据方向由于人才稀缺度较高,相同工作年限的情况下,大数据工程师的薪资普遍更高,待遇涨幅也会超过其他岗位。最近,谷歌爸爸又收购了一家公司。长期以来,谷歌致力于推动围绕 GoogleCloud 的企业业务,但在这方面一直被亚马逊和微软吊打,这次的收购正是为了弥补自身的短板。被收购的 Cask Data 是一家专门...

2019-05-05 17:37:00 1457

原创 大数据工程师需要掌握哪些知识?

IT行业中Java语言是基础需要打牢,除此之外还要掌握其他的技能,大数据之所以被称为大数据,是因为这些海量数据的数量级已经达到TB、PB、EB级。传统的数据处理手段早已满足不了需求。大数据处理技术涉及面非常广,不再是以往“一招鲜吃遍天”的局面了。主要有分布式计算、高并发处理、高可用处理、集群、实时性计算等。作为一名大数据工程师需要掌握哪些知识?我们一起来看一下。对大数据以及人工智能...

2019-05-05 17:36:57 5196

原创 数据库开发工程师转行大数据开发可以吗?

对有工作经验想转行大数据开发主要考察三个方面,一是基础,二是学习能力,三是解决问题的能力。 基础很好考察,给几道笔试题做完基本上就知道什么水平了。数据库开发工程师转大数据开发怎么样?首先给大家普及一下大数据相关知识大数据的4大特征:1.数据在体量方面很大,比如说文字,有各种各样的来源,有电子书|实体书|杂志|报刊等,它们的数据大吧。2.数据的类型多种多样,有些是结构化的数据,像存在...

2019-05-05 17:36:52 2447

原创 大数据入门,你需要懂这四个常识

一、大数据分析的五个基本方面  1、可视化分析  大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。  2、数据挖掘算法  大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出...

2019-05-05 17:36:45 376

原创 大数据java入门之Linux命令

必须学会的命令1.man和page1.内部命令:echo查看内部命令帮助:help echo 或者 man echo2.外部命令:ls查看外部命令帮助:ls --help 或者 man ls 或者 info ls3.man文档的类型(1~9)man 7 manman 5 passwd4.快捷键:ctrl + c:停止进程ctrl + l:清屏ctrl + r...

2019-05-03 19:15:20 203

原创 Blink开源,Spark3.0,谁才能称霸大数据领域?

2018和2019年是大数据领域蓬勃发展的两年,自2019年伊始,实时流计算技术开始步入普通开发者视线,各大公司都在不遗余力地试用新的流计算框架,实时流计算引擎Spark Streaming、Kafka Streaming、Beam和Flink持续火爆。最近Spark社区,来自Databricks、NVIDIA、Google以及阿里巴巴的工程师们正在为Apache Spark 3.0添加原生的...

2019-05-03 19:11:55 294

原创 Hive使用必知必会系列

一、Hive的几种数据模型 内部表 (Table 将数据保存到Hive 自己的数据仓库目录中:/usr/hive/warehouse) 外部表 (External Table 相对于内部表,数据不在自己的数据仓库中,只保存数据的元信息) 分区表 (Partition Table将数据按照设定的条件分开存储,提高查询效率,分区-----> 目录) 桶...

2019-05-03 19:09:27 324

原创 大数据入门(Hadoop生态系统)

Hadoop生态系统为大数据领域提供了开源的分布式存储和分布式计算的平台,这一章我们进行Hadoop生态系统的入门学习,介绍其中分布式文件系统HDFS、分布式资源调度YARN、分布式计算框架MapReduce(包含Spark的入门以及和MapReduce的比较),最后通过Spring Boot集成Hadoop来访问文件系统。大数据的应用本人喜欢体育运动,以体育中来举列子。足球点球大战...

2019-05-03 19:01:33 749

原创 阿里大数据实习电话二面

还是第一次的小姐姐面。感觉不算二面吧,应该算是一面的后序。前两天面的,过程有些记不清了。 还是问了问项目,后面被怼了,说我没什么实际的项目经验。 这次偏重于问技术选型,比如为什么你的项目里要用SparkSQL进行离线数据分析而不用Hive。 中间根据回答问了Spark SQL为什么比Hive快。 为什么既要用flume又用kafka,你的flume是什么作用,日志收集的话为什么不...

2019-05-03 18:58:55 314

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除