自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 大数据项目及实现

1,离线数据处理:项目内容为通过对网站访问日志的采集和清洗,结合数据库中的结构化用户数据,统计并展示网站的PV、UV情况,以对网站的运行情况进行监控。通过此项目,回顾并串联前面讲述的离线数据处理相关技术,如:FIune、Sqoop、Hive、Spark等,了解和掌握PB级数据离线处理的一般过程和架构。2,流式数据处理:项目内容为通过对数据库交易数据修改的实时同步,监控网站实时交易情况,以提高网...

2019-05-11 21:39:36 4917

原创 在Hive上构建数据仓库使用的数据模型

现状针对大数据Hadoop体系中,Hive作为数据仓库工具;但是对于大数据中数据仓库上构建数据模型的方法和传统的关系数据库的方法是否还是可以使用。世间万物不会孤立的存在,它们以各种关系进行联系;构建的数据模型如何体现这些关系。从目前各大厂商(IBM,微软)的数据仓库构建方法中,还是保留原来关系型数据仓库(传统的数据仓库)的模式,在Hive中构建各表及其间的关系;尽管在Hive中并不是...

2019-05-11 21:39:34 2961

原创 资源整理 | 36个惊人的Python开源项目,都在这了

全文共2853字,预计学习时长8分钟或更长在构建应用程序时,开源项目非常有用。在比较了近5,000个开源Python项目后,本文整理了过去的一年中,在Github上平均标星数1667的前36个开源项目提供给大家!赶快收藏哟!NO.1(Github标星数:6639)Manim:解释数学视频的动画引擎·Manim是一个可以解释性数学视频的动画引擎。·可以使用Python来创...

2019-05-11 19:21:03 8519

原创 14个Q&A,讲述python与数据科学的“暧昧情事”

全文共3733字,预计学习时长7分钟Python最近火了,大红大紫那种。PYPL(编程语言受欢迎程度) 四月官方榜单宣布,Python荣获NO.1,竟然连朋友圈里的文科生都开始转发Python课程打卡的链接了……这是怎样一个令全民疯狂的语言?作为编程界的“头牌”名媛,Python平易近人的态度和精明婉约的灵动深得各个大佬欢心。比如:人工智能、web开发、爬虫、系统运维、数据分析与计算等等。...

2019-05-11 19:17:18 308

原创 2019学习Python的10个原因

如果你经常关注我,那你可能想知道为什么我要写一篇文章来告诉你们学习Python?但是几年前我曾向你们说过Java比Python更具有优势,哦,这就尴尬了,但确实,这几年情况有所改变,在2016年,Python取代Java成为大学最流行的语言,而且它的发展趋势逐渐飙升,从未回首。【python开发学习资料领取方式】:加入python技术学习交流群250933691,点击加入群聊,私信管理员即...

2019-05-11 19:11:12 322

原创 浅析大数据Hadoop之YARN架构

1.YARN本质上是资源管理系统。YARN提供了资源管理和资源调度等机制1.1原 Hadoop MapReduce 框架对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考 Hadoop 官方简介。使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下...

2019-05-10 22:11:04 385

原创 Hadoop和大数据:60款顶级开源工具

说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱。弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,“100%的大公司”会采用Hadoop。Market Research的一份报告预测,到2011年,Hadoop市场会以58%的年复合增长率(CAGR)高速增长;到2020年,市场产值会超过10亿美元。IBM更是非常看好开源大数据...

2019-05-10 22:10:16 258

原创 程序员高薪盛宴背后:未来有哪些程序员会被淘汰?

华为35岁辞退事件...中兴员工坠楼残局...每次听到这样的新闻,很多程序员一面为不幸的同僚扼腕叹息,一面也在暗暗问自己:技术变化那么快,我会不会被淘汰?又或者程序员十年后还会有今天的收入吗?一面是被淘汰一面是生存收入降低,两顾两相难!假如今天的收入代表比较值钱的话,这个问题其实可以换一种等同的问法,即:●程序员十年后还会像现在这么值钱吗?十年这里可以一定程...

2019-05-10 22:10:14 237

原创 大数据开发之路:hive篇

引语大数据开发之路漫漫其修远兮,吾将上下而求索。很多入门大数据的小伙伴,可能第一个接触到的,就是一只可爱的“小象”,也就是我们的大数据领域的数据仓库工具hive。这只小象给我们提供了方便类SQL查询语言HQL来操纵数据,使得我们一开始不用编写复杂的代码,就可以轻松的探索数据。Hive对于熟悉传统数据库的同学来说,算是很友好的一个入门工具。原理在大数据生态中,hive一般作为数据...

2019-05-10 22:10:12 600

原创 想学java大数据还不知道这些怎么行?

划重点互联网发展瞬息万变,程序员就是用一行行代码改变世界,设想你做的app被大家喜爱,你做的网站深受大家亲睐的时候,那种成就感自然是不言而喻的。本文达妹就为大家总结在学习IT技术前,程序员不得不掌握的技能,希望对你有帮助:1你能吃苦吗?为什么这么问?很简单,996大家听过吧,这是互联网行业奇葩工作时间。做程序员这行尤其是互联网企业里,加班是常有的事,遇到赶项目或者大事通宵也不是不可能...

2019-05-09 21:59:45 428

原创 学大数据培训纯粹是为了炫技?

学大数据开发纯粹是为了炫技?如果我们一味的追求大数据,炫技,而忽视行业思维的培养,那所学技能会像工具一样让许多人变为工具的奴隶。而真正建立新竞争力的人,是属于能够建立自己知识体系,真正把数据知识融合运用的人。大数据培训的知识学习掌握运用得当将会发挥巨大的能量。目前,互联网公开资源,包括网络公开课等,已经具有很好的学习环境,各类数据人不断在输出技能。相信只要有心,一定能够找到自身发展的特点,...

2019-05-09 21:59:43 412

原创 快速了解kafka的基础架构

今天来聊下在大数据场景下比较流行的消息队列组件kafka。本篇文章将主要从理论角度来介绍。kafka是一款开源、追求高吞吐、实时性,可持久化的流式消息队列,可同时处理在线(消息)与离线应用(业务数据和日志)。在如今火热的大数据时代,得到了广泛的应用。整体架构kafka的消息以Topic进行归类,支持分布式distribution、可分区partition和可复制replicated的特...

2019-05-09 21:59:40 368

原创 大数据、云计算系统顶级架构师课程学习路线图

大数据、云计算系统架构师顶级课程阶段一、大数据、云计算 - Hadoop大数据开发技术课程一、大数据运维之Linux基础本部分是基础课程,帮大家进入大数据领域打好Linux基础,以便更好地学习Hadoop,hbase,NoSQL,Spark,Storm,docker,openstack等众多课程。因为企业中的项目基本上都是使用Linux环境下搭建或部署的。 1)Linux系...

2019-05-09 21:59:34 2181

原创 数据同步之大数据下数据仓库的同步方式

数据仓库的特性是集成,把不同数据源、不同形式的数据整合在一起。大数据下的数据特点如下:①数据多样性:包括高度结构化,易于处理的结构化数据以及服务器日志、图片、视频等非结构化数据②数据量:传统的数据仓库每天的同步量在几百GB上下,大型的数据仓库每天达PB级别,甚至EB级别批量数据同步:1)离线的数据线仓库用于负责将不同数据源的数据同步到数据仓库,以及定时将数据同步到业务系统2)要...

2019-05-09 21:59:29 2010 1

原创 程序员努力一月终获2.6万提成,因公司绩效和代码行数挂钩

提起程序员,大家都说是高薪行业,但是说到底其实也是一个打工的,去哪儿都会看工资高低,有的公司是算的固定工资,而有些公司为了激发员工工作的热情,会设置一些考核标准,达到标准的就能拿更多的报酬。而在很多圈外人看来,程序员这个职业就是写代码的,所以代码写的越多证明工作越努力,那么就应该拿更多的报酬。最近某互联网公司就开始实施按代码行数给程序员算工资,结果却被坑了一把:根据网友所说,这家公司的...

2019-05-07 21:59:39 2366

原创 8年京东大数据架构师推荐的大数据开发学习路线

一、我们先要了解大数据的工作方向01.大数据工程师02.数据分析师03.大数据科学家04.其他(数据挖掘本质算是机器学习,不过和数据相关,也可以理解为大数据的一个方向吧)二、大数据工程师的技能要求必须技能10条:01.Java高级(虚拟机、并发)02.Linux 基本操作03.Hadoop(此处为侠义概念单指HDFS+MapReduce+Yarn )04.H...

2019-05-07 21:59:35 1423

原创 从金融行业转型大数据,一路学习点滴的分享!

大数据学习之路,很漫长,但是请放心,Java 转大数据很轻松,零基础学大数据也很轻松,我会陪着你们一起搞起来,干就完事了。本篇文章有点长,都是我的真实感受。分为:开始、转折、成长、New Flag、关于此号、推荐、总结七个部分。开始我大学学的是软件工程专业,2018 年毕业。据统计,近几年毕业生中平均薪资最高的专业就是软件工程!还好我没有拉低平均水平,凭借自己努力和运气毕业去了一家金融...

2019-05-07 21:59:31 657

原创 Spark+Kafka如何限速的问题

最近太忙了,上一次更新还是半个月前。不过我觉得终究还是要更新一下的,只是这次实在没时间写什么心得体会或是讨论之类的了,就拿在知乎上回答的一个帖子”偷懒“一下好了。这个帖子是在知乎上回答如何为Spark Streaming + Kafka应用限速的。同样的问题在知乎上也碰到过几次,还是具有一定的普遍性的,故我这里直接顺手牵羊了, 省的我无中生有写一些我觉得有用的东西,实际上并不是那么回事。要知道...

2019-05-07 21:59:27 1255

原创 大数据技术概念以及应用领域完全解读

在写这篇大数据文章之前,我发现身边很多IT人对于这些热门的新技术、新趋势往往趋之若鹜却又很难说的透彻,如果你问他大数据是什么,什么是大数据概念?估计很少能说出一二三来。究其原因,一是因为大家对大数据这类新技术有着相同的原始渴求,至少知其然在聊天时不会显得很“土鳖”;二是在工作和生活环境中真正能参与实践大数据的案例实在太少了,所以大家没有必要花时间去知其所以然。我希望有些不一样,所以对该如何去认...

2019-05-07 21:59:25 4619

原创 数据湖和数据仓库的区别是什么?

我们都知道,进行数据分析工作的时候会用到很多的工具,比如说数据湖和数据仓库,不过这两者之间的差异和区别,可能会让人困惑。那么大家知道不知道数据湖和数据仓库的区别是什么呢?下面我们就给大家介绍一下数据湖和数据库的相关知识。那么什么是数据湖呢?其实数据湖就是一个集中存储数据库,用于存储所有结构化和非结构化数据。数据湖可用其原生格式存储任何类型的数据,这是没有大小限制。数据湖的开发主要是为...

2019-05-06 21:59:45 21898 4

原创 Hadoop学习笔记

一、Hadoop基础知识:(主要解决海量数据存储和海量数据分析计算)1、Hadoop的优势:1)高可靠性:因为Hadoop假设计算元素和存储会出现故障,因为它维护多个工作数据副本,在出现故障时可以对失败的节点重新分布处理。2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。4)高容错性...

2019-05-06 21:59:42 850

原创 培训出来的程序员容易被代替吗?

我认识这样一个程序员,他长这样, 我第一次认识他的时候,他告诉我:我是干销售的,卖房子,我觉得这一行太丑陋了,我想学点技术,踏踏实实的挣钱。我说:那你能吃苦吗?他说:我不觉得还有什么苦能比我干房产中介还要苦。 于是他来了。 学的可真费劲。 如果说有十个学生,那么他就是那个倒数第一、第二的那个。往往这样的学生在碰到技术问题的...

2019-05-06 21:59:40 1118 2

原创 大数据的了解和入门级的学习方法

一:大数据的了解大数据(巨量数据集合)是现代社会非常时髦的一个名词。是数据科学的一个高阶状态。数据科学并没有一个独立的学科体系,统计学,机器学习,数据挖掘,数据库,分布式计算,云计算,信息可视化等技术或方法来对付数据。催生出了一些与大数据相关的职业,通过对数据的分析挖掘来影响企业的商业决策。国内,大数据的应用处于萌芽状态,人才市场还不太成熟,每家公司对大数据工作的要求不尽相同:有的强调数据...

2019-05-05 21:59:24 797

原创 大数据技术与Apache Hadoop生态的进化

一、什么是大数据对于“大数据”(Big data)研究机构 Gartner 给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。以上的概念体现出了两个关键信息,一个是数据量大,一个是数据形态多样。(1)数据量有多大呢?以百度系统为例,它每天要产生100TB~1PB的日志数据。一般我们电脑的硬盘是1...

2019-05-05 21:59:22 466

原创 大数据的十大流行误区,你中了几个?

技术和科学每天都在观察革命性的进步,企业正在努力从中汲取最大的利益。数据分析是这样一个领域,他们利用大数据和数据科学,将大量数据与业务战略相结合。实际上,大数据对所有企业都有合理的承诺,无论其规模如何。通过大数据分析,企业可以获得洞察力,帮助他们不仅可以增加收入,还可以了解他们的服务和产品中的差距。让我们来看看最常见的大数据误区作为一项不断发展的技术和相对较新的概念,大数据其实存在极少...

2019-05-03 21:45:40 450

原创 漫谈阿里那些大数据技术,大数据学习者必看

目前人人都在谈大数据,谈DT时代,但是,大数据是什么,每个人都有自己的一个看法,好比盲人摸象,每个都认为自己摸到是真正的大象。我也担心我所看到的,只是大数据的冰山一角,毕竟,将引领整个人类下一次变革的大数据,不是几篇文章就能说清楚的。  一,DT时代  大数据这个概念,其实在上世纪九十年代就有人提出来了,当时希望通过将所有零散的数据归并起来,然后进行数据挖掘,以看到以前存在的问题,去预...

2019-05-01 21:59:20 10566

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除