自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(35)
  • 收藏
  • 关注

原创 【大数据技术】Apache Spark 内存管理详解

Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本,阅读本文需要读者有一定的 Spark 和 Java 基础,了解 RDD、Shuff...

2019-05-14 22:00:14 239

原创 看看华为、阿里大数据架构师的必备技能!

嘘,我们只偷偷地告诉你一个人!这个秘密职业就是数据架构师在国内大数据行业大概有以下几种岗位:数据架构师、数据分析师、数据挖掘工程师、数据算法工程师和数据产品经理。接下来我们介绍第二种岗位让我们来详细地告诉你这个身份吧数据架构师负责平台的整体数据架构设计,完成从业务模型到数据模型的设计工作,根据业务功能和业务模型进行数据库建模设计,完成各种面向业务目标的数据分析模型的定义和应...

2019-05-14 22:00:06 630

原创 机器学习里面数学知识,到底对数学水平要求多高?

过去几个月里,有不少人联系我,向我表达他们对数据科学、对利用机器学习技术探索统计规律性,开发数据驱动的产品的热情。但是,我发现他们中有些人实际上缺少为了获取有用结果的必要的数学直觉和框架。这是我写这篇文章的主要原因。最近,许多好用的机器和深度学习软件变得十分易得,例如 scikit-learn,Weka,Tensorflow,等等。机器学习理论是与统计学、概率论、计算机科学、算法等方面交叉的领...

2019-05-14 21:59:56 973

原创 学习大数据,你的职业是如何规划的?

作为IT类职业中的“大熊猫”,大数据人才(数据工程师,数据分析师,数据挖掘师,算法工程师等)、在国内人才市场可谓是一颗闪耀的新星。由于刚刚出于萌芽阶段,这个领域出现很大的人才缺口。1 大数据人才做什么?2 需要具备的能力2.1 精通SQL2.2 数据模型技能2.3 ETL设计2.4 架构项目3 知识体系机器学习基础机器学习工具3.1 大数据通用处理平台...

2019-05-14 21:59:53 5705

原创 【Bigger】如何区分三个大数据热门职业

随着大数据的愈演愈热,相关大数据的职业也成为热门,给人才发展带来带来了很多机会。数据科学家、数据工程师、数据分析师已经成为大数据行业最热门的职位。它们是如何定义的?具体是做什么工作的?需要哪些技能?让我们一起来看看吧。这3个职业是如何定位的?数据科学家是个什么样的存在数据科学家是指能采用科学方法、运用数据挖掘工具对复杂多量的数字、符号、文字、网址、音频或视频等信息进行数字化重现与认...

2019-05-14 21:59:48 221

原创 大数据是何方圣神?为什么近年来这么火?

众说纷纭大数据几年前,有幸参与大数据的研究及如何落地实操的课题,短短几年,此话题已然风生水起。何为大数据?为什么要发展大数据?大数据如何产业化?产业如何大数据化?大数据的未来会怎样?未来的大数据会怎样?……这些都是最初我们的课题内容,时至今日,部分似已清晰,部分还很模糊。关于大数据,数学家会说:我最有发言权政治家会说:游戏规则第一经济学家说:还得回归供需企业家...

2019-05-14 21:59:44 392

原创 一步一步教你如何用Python做词云

前言在大数据时代,你竟然会在网上看到的词云,例如这样的。看到之后你是什么感觉?想不想自己做一个?如果你的答案是正确的,那就不要拖延了,现在我们就开始,做一个词云分析图,Python是一个当下很流行的编程语言,你不仅可以用它做数据分析和可视化,还能用来做网站、爬取数据、做数学题、写脚本替你偷懒……如果你之前没有编程基础,没关系。希望你不要限于浏览,而是亲自动手尝试一番。到完成的那...

2019-05-12 22:01:25 1075

原创 从入门到放弃之大数据Hive

开门见山,今天说说Hive!!!什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是MapReduce3)执行程序运行...

2019-05-12 22:01:17 565

原创 从入门到放弃之大数据Hive

开门见山,今天说说Hive!!!什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是MapReduce3)执行程序运行...

2019-05-12 22:01:15 640

原创 大数据与Hadoop有什么关系?

学习着数据科学与大数据技术专业(简称大数据)的我们,对于“大数据”这个词是再熟悉不过了,而每当我们越去了解大数据就越发现有个词也会一直被提及那就是——Hadoop那Hadoop与大数据有什么关系呢?所谓大数据,就是从各种类型的数据中,快速获得有价值信息的能力。大数据是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。它是对那些超出正常处理...

2019-05-10 22:10:30 599

原创 大学计算机老师为什么不去大公司做程序员?

网友一:可能现在不少人都有这个疑问,大公司的程序员收入很高,为什么一些大学专业老师不去大公司做程序员呢?程序员工资多高啊!作为一名研发人员,同时也是一名研究生导师,我觉得大概有以下几个原因:1,到大公司做程序员是一件简单的事,但是去大学当老师却并不简单,大学老师的入门门槛要远高于公司程序员。,2,高校能提供的科研环境和氛围是大多数公司提供不了的。大公司也好,小公司也罢,核心诉求是利...

2019-05-10 22:10:23 742

原创 大数据Hadoop入门简介

hadoop是什么Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的硬件上;而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。HDFS放宽了POSIX的要求,可以以流的形式访问文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapRed...

2019-05-10 22:10:21 263

原创 大数据程序员平均薪资25k?

有机构对一线城市2018年国内科技领域热门职位薪酬范围及跳槽涨幅进行了预测:大数据方向由于人才稀缺度较高,相同工作年限的情况下,大数据工程师的薪资普遍更高,待遇涨幅也会超过其他岗位。最近,谷歌爸爸又收购了一家公司。长期以来,谷歌致力于推动围绕 GoogleCloud 的企业业务,但在这方面一直被亚马逊和微软吊打,这次的收购正是为了弥补自身的短板。被收购的 Cask Data 是一家专门...

2019-05-05 17:37:00 1425

原创 大数据工程师需要掌握哪些知识?

IT行业中Java语言是基础需要打牢,除此之外还要掌握其他的技能,大数据之所以被称为大数据,是因为这些海量数据的数量级已经达到TB、PB、EB级。传统的数据处理手段早已满足不了需求。大数据处理技术涉及面非常广,不再是以往“一招鲜吃遍天”的局面了。主要有分布式计算、高并发处理、高可用处理、集群、实时性计算等。作为一名大数据工程师需要掌握哪些知识?我们一起来看一下。对大数据以及人工智能...

2019-05-05 17:36:57 5124

原创 数据库开发工程师转行大数据开发可以吗?

对有工作经验想转行大数据开发主要考察三个方面,一是基础,二是学习能力,三是解决问题的能力。 基础很好考察,给几道笔试题做完基本上就知道什么水平了。数据库开发工程师转大数据开发怎么样?首先给大家普及一下大数据相关知识大数据的4大特征:1.数据在体量方面很大,比如说文字,有各种各样的来源,有电子书|实体书|杂志|报刊等,它们的数据大吧。2.数据的类型多种多样,有些是结构化的数据,像存在...

2019-05-05 17:36:52 2397

原创 大数据入门,你需要懂这四个常识

一、大数据分析的五个基本方面  1、可视化分析  大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。  2、数据挖掘算法  大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出...

2019-05-05 17:36:45 353

原创 大数据java入门之Linux命令

必须学会的命令1.man和page1.内部命令:echo查看内部命令帮助:help echo 或者 man echo2.外部命令:ls查看外部命令帮助:ls --help 或者 man ls 或者 info ls3.man文档的类型(1~9)man 7 manman 5 passwd4.快捷键:ctrl + c:停止进程ctrl + l:清屏ctrl + r...

2019-05-03 19:15:20 173

原创 Blink开源,Spark3.0,谁才能称霸大数据领域?

2018和2019年是大数据领域蓬勃发展的两年,自2019年伊始,实时流计算技术开始步入普通开发者视线,各大公司都在不遗余力地试用新的流计算框架,实时流计算引擎Spark Streaming、Kafka Streaming、Beam和Flink持续火爆。最近Spark社区,来自Databricks、NVIDIA、Google以及阿里巴巴的工程师们正在为Apache Spark 3.0添加原生的...

2019-05-03 19:11:55 283

原创 Hive使用必知必会系列

一、Hive的几种数据模型 内部表 (Table 将数据保存到Hive 自己的数据仓库目录中:/usr/hive/warehouse) 外部表 (External Table 相对于内部表,数据不在自己的数据仓库中,只保存数据的元信息) 分区表 (Partition Table将数据按照设定的条件分开存储,提高查询效率,分区-----> 目录) 桶...

2019-05-03 19:09:27 314

原创 大数据入门(Hadoop生态系统)

Hadoop生态系统为大数据领域提供了开源的分布式存储和分布式计算的平台,这一章我们进行Hadoop生态系统的入门学习,介绍其中分布式文件系统HDFS、分布式资源调度YARN、分布式计算框架MapReduce(包含Spark的入门以及和MapReduce的比较),最后通过Spring Boot集成Hadoop来访问文件系统。大数据的应用本人喜欢体育运动,以体育中来举列子。足球点球大战...

2019-05-03 19:01:33 703

原创 阿里大数据实习电话二面

还是第一次的小姐姐面。感觉不算二面吧,应该算是一面的后序。前两天面的,过程有些记不清了。 还是问了问项目,后面被怼了,说我没什么实际的项目经验。 这次偏重于问技术选型,比如为什么你的项目里要用SparkSQL进行离线数据分析而不用Hive。 中间根据回答问了Spark SQL为什么比Hive快。 为什么既要用flume又用kafka,你的flume是什么作用,日志收集的话为什么不...

2019-05-03 18:58:55 286

原创 论大数据的泡沫、价值与应用陷阱

1大数据源起:对未来不确定性的恐惧。我们所生活的世界,就像一片混沌(chaos),大数据时代,我们周围更是充斥着各种不同的理论、知识、信息和噪音,数据爆炸式增长和科技高速发展所带来的冲击,加大了未来的不确定性。当我们接收的数据和信息越多,面临的选择就越多,如若不善于过滤、挖掘和处理,对各种决策就可能会造成负面影响,当然也会放大我们对未来不确定性的恐惧。小到个人命运大到国家前途,都是在这样一...

2019-04-27 00:17:17 278

原创 大数据发展和就业前景好吗?大数据人才缺口有多大?

高考阅卷已经结束,大多考生都会面临与高考同样重要的问题:志愿填报。今年有一个获批的新增专业备受瞩目——数据科学与大数据技术。“大数据”概念再火热,填报志愿的学生和家长也要冷静,这几个问题必须先想好:当前大数据行业真的是人才稀缺吗?学了几年后,大数据行业会不会产能过剩?大数据行业最终需要什么样的人才?“热门专业”填报,有哪些注意点?接下来科多大数据就带你们看看分析结果:当前大...

2019-04-27 00:14:50 566

原创 拼多多大数据开发工程师SQL实战解析

不久前,裸考国内知名电商平台拼多多的大数据岗位在线笔试,问答题(写SQL)被虐的很惨,完了下来默默学习一波。顺便借此机会复习一下SQL语句的用法,也希望帮助到找实习、找工作的同学。本文主要涉及到的SQL知识点包括CREATE创建数据库和表、INSERT插入数据、SUM()求和、GROUP BY分组、DATE_FORMAT()格式化日期、ORDER BY排序、COUNT()统计行数、添加排名、M...

2019-04-27 00:05:35 367

原创 十年开发经验大咖分享的零基础自学大数据之路

前言:一、背景介绍 二、大数据介绍正文:一、大数据相关的工作介绍 二、大数据工程师的技能要求 三、大数据学习规划 四、持续学习资源推荐(书籍,博客,网站) 五、项目案例分析(批处理+实时处理)前言一、背景介绍本人目前是一名大数据工程师,项目数据50T,日均数据增长20G左右,个人是从Java后端开发,经过3个月的业余自学成功转型大数据工程师。二、大数据介绍大数...

2019-04-22 16:06:21 813 1

原创 大数据自学书籍推荐

大数据火爆招聘中,高端的薪资待遇实在是让人欲罢不能,赶紧拿起书本,原来学习大数据才是正道。可是看到很多漫天大数据的书籍真的有些头疼了,不知道该从哪一本开始阅读。  学习这种事,泛泛而读真的不如术业有专攻,而且还要循序渐进比较好,今天我将学习大数据的同学分为两类,推荐的书籍可以有一定差别的,想要学习大数据的同学可以酌情参考!  学习大数据的小伙伴在小编看来总共分为两大类:一是本身就是计算机专...

2019-04-22 15:52:21 4300

原创 大数据最最详细的学习线路

如果你看完有信心能坚持学习的话,那就当下开始行动吧!一、大数据技术基础1、linux操作基础linux系统简介与安装linux常用命令–文件操作linux常用命令–用户管理与权限linux常用命令–系统管理linux常用命令–免密登陆配置与网络管理linux上常用软件安装linux本地yum源配置及yum软件安装linux防火墙配置linux高级文本处理命令cut、...

2019-04-22 15:48:27 253

原创 关于大数据技术最常见的10个问题

1、云计算与大数据是什么关系?  云计算的关键词在于“整合”,无论你是通过现在已经很成熟的传统的虚拟机切分型技术,还是通过google后来所使用的海量节点聚合型技术,他都是通过将海量的服务器资源通过网络进行整合,调度分配给用户,从而解决用户因为存储计算资源不足所带来的问题。  大数据正是因为数据的爆发式增长带来的一个新的课题内容,如何存储如今互联网时代所产生的海量数据,如何有效的利用分...

2019-04-19 16:42:43 2366

原创 大数据技术应该重点学哪些内容?

大数据有很多方向,目前我们口中经常说的大数据的主要就业方向是:大数据研发,大数据分析与挖掘,深度学习,人工智能等方向。我自己建的大数据学习交流群:199427210,群里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据软件开发相关的),包括我自己整理的一份最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴加入。...

2019-04-19 16:37:53 532

原创 大数据工程师的日常工作内容是做什么?

大数据工程师工作内容取决于你工作在数据流的哪一个环节。从数据上游到数据下游,大致可以分为:数据采集 -> 数据清洗 -> 数据存储 -> 数据分析统计 -> 数据可视化 等几个方面工作内容当然就是使用工具组件(Spark、Flume、Kafka等)或者代码(Java、Scala等)来实现上面几个方面的功能。很多初学者,对大数据的概念都是模糊不清的,大...

2019-04-19 16:34:21 2511

原创 大数据的技术生态?Hadoop、Hive、Spark之间是什么关系?

大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所有需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择。大数据,首先你要能存的下大数据。传统的文件系统是单机的,不能横跨不...

2019-04-18 20:50:42 471 1

原创 大数据入门到精通的完整的学习线路

大数据介绍大数据的由来大数据的应用领域大数据方面核心技术有哪些?一、数据采集与预处理Flume NGNDCLogstashSqoop流式计算Zookeeper二、数据存储HBasePhoenixYarnMesosRedisAtlasKudu三、数据清洗OozieAzkaban四、数据查询分析HiveImpalaSparkNutchSolrE...

2019-04-18 20:32:35 428 1

原创 云计算,大数据,AI三者的关系如何?

我今天要讲这三个话题,一个是云计算,一个大数据,一个人工智能,我为什么要讲这三个东西呢?因为这三个东西现在非常非常的火,它们之间好像互相有关系,一般谈云计算的时候也会提到大数据,谈人工智能的时候也会提大数据,谈人工智能的时候也会提云计算。所以说感觉他们又相辅相成不可分割,如果是非技术的人员来讲可能比较难理解说这三个之间的相互关系,所以有必要解释一下。一、云计算最初是实现资源管理的灵活性我们...

2019-04-17 19:29:24 555 3

原创 大数据学习必须掌握的五大核心技术有哪些?

大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。首先给出一个通用化的大数据处理框架,主要分为下面几个方面:数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。  一、数据采集与预处理  对于各种来源的数据,包括移动互联网数据、社交网络的数据等,这些...

2019-04-17 19:25:00 532

原创 人工智能的三大教父,谱写了一段关于勇气的寓言

上世纪80年代末,还在加拿大攻读硕的尤舒亚·本吉奥(Yoshua Bengio)被一个当时并不怎么流行的想法迷住了。那时,有少数从事人工智能研究的计算机科学家试图研发这样一种软件,这种软件可以大致模仿神经元网络在大脑中处理数据的方式,虽然当时并没有证据表明这是一种行得通的想法。○神经元模拟。20多年后,科技行业也后知后觉地爱上了这个想法。近年来,人工智能领域的长足进步使得自动驾驶汽车...

2019-04-17 19:22:38 179

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除