大数据
文章平均质量分 75
haotian1685
这个作者很懒,什么都没留下…
展开
-
大数据项目及实现
1,离线数据处理:项目内容为通过对网站访问日志的采集和清洗,结合数据库中的结构化用户数据,统计并展示网站的PV、UV情况,以对网站的运行情况进行监控。通过此项目,回顾并串联前面讲述的离线数据处理相关技术,如:FIune、Sqoop、Hive、Spark等,了解和掌握PB级数据离线处理的一般过程和架构。2,流式数据处理:项目内容为通过对数据库交易数据修改的实时同步,监控网站实时交易情况,以提高网...原创 2019-05-11 21:39:36 · 4917 阅读 · 0 评论 -
大数据的了解和入门级的学习方法
一:大数据的了解大数据(巨量数据集合)是现代社会非常时髦的一个名词。是数据科学的一个高阶状态。数据科学并没有一个独立的学科体系,统计学,机器学习,数据挖掘,数据库,分布式计算,云计算,信息可视化等技术或方法来对付数据。催生出了一些与大数据相关的职业,通过对数据的分析挖掘来影响企业的商业决策。国内,大数据的应用处于萌芽状态,人才市场还不太成熟,每家公司对大数据工作的要求不尽相同:有的强调数据...原创 2019-05-05 21:59:24 · 797 阅读 · 0 评论 -
大数据技术与Apache Hadoop生态的进化
一、什么是大数据对于“大数据”(Big data)研究机构 Gartner 给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。以上的概念体现出了两个关键信息,一个是数据量大,一个是数据形态多样。(1)数据量有多大呢?以百度系统为例,它每天要产生100TB~1PB的日志数据。一般我们电脑的硬盘是1...原创 2019-05-05 21:59:22 · 466 阅读 · 0 评论 -
大数据开发之kafka 简介、架构、安装
Kafka 简介kafka 是一个分布式的、可分区的、可复制的消息发布和订阅系统,具有高性能和高吞吐率。kafka 消息队列的特点如下:1.消费者和生产者模式2.FIFO先进进出的有序性3.分布式4.高吞吐率5.消息被处理的状态是在 consumer 端维护的,而不是由 server 进行维护的。所以,失败的时候,还可以自动平衡。理解上面的特点:1.生产者和...原创 2019-04-25 11:26:24 · 266 阅读 · 0 评论 -
大数据的十大流行误区,你中了几个?
技术和科学每天都在观察革命性的进步,企业正在努力从中汲取最大的利益。数据分析是这样一个领域,他们利用大数据和数据科学,将大量数据与业务战略相结合。实际上,大数据对所有企业都有合理的承诺,无论其规模如何。通过大数据分析,企业可以获得洞察力,帮助他们不仅可以增加收入,还可以了解他们的服务和产品中的差距。让我们来看看最常见的大数据误区作为一项不断发展的技术和相对较新的概念,大数据其实存在极少...原创 2019-05-03 21:45:40 · 450 阅读 · 0 评论 -
大数据开发第一步:Hadoop基础学习
目前人工智能和大数据火热,使用的场景也越来越广,日常开发中前端同学也逐渐接触了更多与大数据相关的开发需求。因此对大数据知识也有必要进行一些学习理解。基础概念大数据的本质一、数据的存储:分布式文件系统(分布式存储)二、数据的计算:分部署计算基础知识学习大数据需要具备Java知识基础及Linux知识基础学习路线(1)Java基础和Linux基础(2)Hadoop的学...原创 2019-04-27 21:52:51 · 817 阅读 · 0 评论 -
我在微软工作 14 年发现:千万别在你最能拼命的时候,选择了养生
过去,我经常问自己一个问题,如果我可以获得一种超能力,我会选什么?后来,我找到了这个问题的答案,最重要的能力,是获得能力的能力。这个答案就像你去找神灯,神灯问你有什么愿望,你说:我的愿望是再要三个愿望……所以我一直在思考,如何能够快速获得一种能力,因为掌握了获得能力的能力之后,其他能力不就随之而来了嘛!▲有美剧爱好者认识他吗?如果把这个问题更加具像化,就是:如何用两年...原创 2019-04-23 14:27:09 · 797 阅读 · 0 评论 -
漫谈阿里那些大数据技术,大数据学习者必看
目前人人都在谈大数据,谈DT时代,但是,大数据是什么,每个人都有自己的一个看法,好比盲人摸象,每个都认为自己摸到是真正的大象。我也担心我所看到的,只是大数据的冰山一角,毕竟,将引领整个人类下一次变革的大数据,不是几篇文章就能说清楚的。 一,DT时代 大数据这个概念,其实在上世纪九十年代就有人提出来了,当时希望通过将所有零散的数据归并起来,然后进行数据挖掘,以看到以前存在的问题,去预...原创 2019-05-01 21:59:20 · 10567 阅读 · 0 评论 -
还在为数据清洗抓狂?这里有一个简单实用的清洗代码集
现实世界中的数据通常质量不高,作为一名数据科学家,有时也需要承担一部分数据清洗的工作,这要求数据科学家们应该能够在进行数据分析或建模工作之前执行数据清洗步骤,从而确保数据的质量最佳。不过长话短说,在数据科学领域工作了很长一段时间后,我切实感受到了在进行数据分析、可视化和建模工作之前,进行数据清洗工作是多么痛苦。不管你承不承认,数据清洗着实不是一件简单的任务,大多数情况下这项工作是十分耗时而...原创 2019-04-26 21:47:34 · 672 阅读 · 0 评论 -
大数据开发一般面试什么内容?
感谢小伙伴们的面试题,刚出炉的,你会吗?第一家大数据开发的面试题:第二家大数据开发的面试题:第三家高级大数据开发的面试题:对大数据以及人工智能概念都是模糊不清的,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:515269485,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家...原创 2019-04-22 16:26:56 · 1737 阅读 · 0 评论 -
大数据的预测实力,这15个有趣的数据集,你可能闻所未闻
数据科学Dojo在其存储库中添加了15个数据集,可供数据科学爱好者和AI爱好者免费使用,并根据不同的难度级别进行了分类。它们能够增加使用者的知识储备并实践练习,以提高在各个领域的技能,比如探索性数据分析、数据可视化、数据整理和机器学习。为方便起见,下面的数据集已按照增加的难度级别进行排序(初级、中级、高级)。建议你使用提供的不同数据集来测试自己。在每个数据集中还提出了一个具有挑战性的问题,你可...原创 2019-03-08 13:18:07 · 6061 阅读 · 1 评论 -
哪些专业适合学习人工智能?学了AI可以做什么职业?
想从事和人工智能相关的工作,大学可以选什么专业呢?AI相关的职业可以简单介绍一下吗?人工智能是一门交叉学科,数学理论和计算机技术是其重要的组成部分。该领域的研究主要包括图像识别、语言识别、专家系统、自然语言处理和机器人科学等。当前,中国的 AI 市场主要分为以下几个领域:1) 基础服务如数据源和计算平台2) 硬件产品如工业机器人和服务机器人3) 智能服务如智能客服和商业智...原创 2019-03-15 11:17:32 · 9611 阅读 · 0 评论 -
大数据就业前景:大数据分析师是青春饭吗?
大数据就业前景:大数据分析师是青春饭吗?2019年大数据分析市场新趋势,2019年企业将部署流媒体平台,推动低延迟DevOps管道,不断向移动应用、物联网、机器人和其他边缘应用注入经过训练的最佳机器学习模型。在线事务分析处理、数据转换和数据治理工作负载也越来越多地转向低延迟、有状态的流式主干架构。大数据分析一直是过去这十年的一个重要技术趋势,也是IT市场中最具活力和创新力的领域之一。但...原创 2019-02-27 13:45:08 · 11369 阅读 · 0 评论 -
大数据知识点分享:大数据平台应用 17 个知识点汇总
一、大数据中的数据仓库和Mpp数据库如何选型?在Hadoop平台中,一般大家都把hive当做数据仓库的一种选择,而Mpp数据库的典型代表就是impala,presto。Mpp架构的数据库主要用于即席查询场景,暨对数据查询效率有较高要求的场景,而对数据仓库的查询效率要求无法做大MPP那样,所以更多地适用与离线分析场景。Hadoop已经是大数据平台的实时标准,其中Hadoop生态中有数据仓库H...原创 2019-03-02 18:54:39 · 1495 阅读 · 0 评论 -
2019年大数据有哪些岗位?以及进入大数据领域的准备
新的一年,发现很多小伙伴想入行大数据,只是听说大数据薪资很高,但对大数据行业具体情况不了解。大数据到底是做什么的?有哪些岗位?就业薪资具体是多少?这些问题今天为你一一解答。1什么是大数据大数据(Big Data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数...原创 2019-02-26 12:18:41 · 1336 阅读 · 0 评论 -
【揭秘】大数据技术最核心的价值就是它?现在知道还不晚
大数据,作为探索客观事物的一个工具,其核心在于预测事物的未来发展。也许你会说,大数据分析的不是已经发生过的数据么?它探索的应该是事物的过去啊,怎么会是预测呢?是的,看起来大数据是在对已经发生过的数据在分析,但是,对过去已经发生过的数据进行分析有什么意义呢?事情已经发生,再分析也无法改变过去呀。所以,大数据分析过去的数据,其实意在事物的未来。即,试图通过分析事物在过去的规律和发展变化,来探索...原创 2019-03-01 22:55:32 · 187 阅读 · 0 评论 -
培训出来的程序员容易被代替吗?
我认识这样一个程序员,他长这样, 我第一次认识他的时候,他告诉我:我是干销售的,卖房子,我觉得这一行太丑陋了,我想学点技术,踏踏实实的挣钱。我说:那你能吃苦吗?他说:我不觉得还有什么苦能比我干房产中介还要苦。 于是他来了。 学的可真费劲。 如果说有十个学生,那么他就是那个倒数第一、第二的那个。往往这样的学生在碰到技术问题的...原创 2019-05-06 21:59:40 · 1119 阅读 · 2 评论 -
Hadoop学习笔记
一、Hadoop基础知识:(主要解决海量数据存储和海量数据分析计算)1、Hadoop的优势:1)高可靠性:因为Hadoop假设计算元素和存储会出现故障,因为它维护多个工作数据副本,在出现故障时可以对失败的节点重新分布处理。2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。4)高容错性...原创 2019-05-06 21:59:42 · 850 阅读 · 0 评论 -
数据湖和数据仓库的区别是什么?
我们都知道,进行数据分析工作的时候会用到很多的工具,比如说数据湖和数据仓库,不过这两者之间的差异和区别,可能会让人困惑。那么大家知道不知道数据湖和数据仓库的区别是什么呢?下面我们就给大家介绍一下数据湖和数据库的相关知识。那么什么是数据湖呢?其实数据湖就是一个集中存储数据库,用于存储所有结构化和非结构化数据。数据湖可用其原生格式存储任何类型的数据,这是没有大小限制。数据湖的开发主要是为...原创 2019-05-06 21:59:45 · 21898 阅读 · 4 评论 -
在Hive上构建数据仓库使用的数据模型
现状针对大数据Hadoop体系中,Hive作为数据仓库工具;但是对于大数据中数据仓库上构建数据模型的方法和传统的关系数据库的方法是否还是可以使用。世间万物不会孤立的存在,它们以各种关系进行联系;构建的数据模型如何体现这些关系。从目前各大厂商(IBM,微软)的数据仓库构建方法中,还是保留原来关系型数据仓库(传统的数据仓库)的模式,在Hive中构建各表及其间的关系;尽管在Hive中并不是...原创 2019-05-11 21:39:34 · 2961 阅读 · 0 评论 -
浅析大数据Hadoop之YARN架构
1.YARN本质上是资源管理系统。YARN提供了资源管理和资源调度等机制1.1原 Hadoop MapReduce 框架对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考 Hadoop 官方简介。使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下...原创 2019-05-10 22:11:04 · 385 阅读 · 0 评论 -
程序员高薪盛宴背后:未来有哪些程序员会被淘汰?
华为35岁辞退事件...中兴员工坠楼残局...每次听到这样的新闻,很多程序员一面为不幸的同僚扼腕叹息,一面也在暗暗问自己:技术变化那么快,我会不会被淘汰?又或者程序员十年后还会有今天的收入吗?一面是被淘汰一面是生存收入降低,两顾两相难!假如今天的收入代表比较值钱的话,这个问题其实可以换一种等同的问法,即:●程序员十年后还会像现在这么值钱吗?十年这里可以一定程...原创 2019-05-10 22:10:14 · 238 阅读 · 0 评论 -
大数据开发之路:hive篇
引语大数据开发之路漫漫其修远兮,吾将上下而求索。很多入门大数据的小伙伴,可能第一个接触到的,就是一只可爱的“小象”,也就是我们的大数据领域的数据仓库工具hive。这只小象给我们提供了方便类SQL查询语言HQL来操纵数据,使得我们一开始不用编写复杂的代码,就可以轻松的探索数据。Hive对于熟悉传统数据库的同学来说,算是很友好的一个入门工具。原理在大数据生态中,hive一般作为数据...原创 2019-05-10 22:10:12 · 600 阅读 · 0 评论 -
Hadoop和大数据:60款顶级开源工具
说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱。弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,“100%的大公司”会采用Hadoop。Market Research的一份报告预测,到2011年,Hadoop市场会以58%的年复合增长率(CAGR)高速增长;到2020年,市场产值会超过10亿美元。IBM更是非常看好开源大数据...原创 2019-05-10 22:10:16 · 258 阅读 · 0 评论 -
8年京东大数据架构师推荐的大数据开发学习路线
一、我们先要了解大数据的工作方向01.大数据工程师02.数据分析师03.大数据科学家04.其他(数据挖掘本质算是机器学习,不过和数据相关,也可以理解为大数据的一个方向吧)二、大数据工程师的技能要求必须技能10条:01.Java高级(虚拟机、并发)02.Linux 基本操作03.Hadoop(此处为侠义概念单指HDFS+MapReduce+Yarn )04.H...原创 2019-05-07 21:59:35 · 1423 阅读 · 0 评论 -
从金融行业转型大数据,一路学习点滴的分享!
大数据学习之路,很漫长,但是请放心,Java 转大数据很轻松,零基础学大数据也很轻松,我会陪着你们一起搞起来,干就完事了。本篇文章有点长,都是我的真实感受。分为:开始、转折、成长、New Flag、关于此号、推荐、总结七个部分。开始我大学学的是软件工程专业,2018 年毕业。据统计,近几年毕业生中平均薪资最高的专业就是软件工程!还好我没有拉低平均水平,凭借自己努力和运气毕业去了一家金融...原创 2019-05-07 21:59:31 · 657 阅读 · 0 评论 -
Spark+Kafka如何限速的问题
最近太忙了,上一次更新还是半个月前。不过我觉得终究还是要更新一下的,只是这次实在没时间写什么心得体会或是讨论之类的了,就拿在知乎上回答的一个帖子”偷懒“一下好了。这个帖子是在知乎上回答如何为Spark Streaming + Kafka应用限速的。同样的问题在知乎上也碰到过几次,还是具有一定的普遍性的,故我这里直接顺手牵羊了, 省的我无中生有写一些我觉得有用的东西,实际上并不是那么回事。要知道...原创 2019-05-07 21:59:27 · 1255 阅读 · 0 评论 -
大数据技术概念以及应用领域完全解读
在写这篇大数据文章之前,我发现身边很多IT人对于这些热门的新技术、新趋势往往趋之若鹜却又很难说的透彻,如果你问他大数据是什么,什么是大数据概念?估计很少能说出一二三来。究其原因,一是因为大家对大数据这类新技术有着相同的原始渴求,至少知其然在聊天时不会显得很“土鳖”;二是在工作和生活环境中真正能参与实践大数据的案例实在太少了,所以大家没有必要花时间去知其所以然。我希望有些不一样,所以对该如何去认...原创 2019-05-07 21:59:25 · 4620 阅读 · 0 评论 -
程序员努力一月终获2.6万提成,因公司绩效和代码行数挂钩
提起程序员,大家都说是高薪行业,但是说到底其实也是一个打工的,去哪儿都会看工资高低,有的公司是算的固定工资,而有些公司为了激发员工工作的热情,会设置一些考核标准,达到标准的就能拿更多的报酬。而在很多圈外人看来,程序员这个职业就是写代码的,所以代码写的越多证明工作越努力,那么就应该拿更多的报酬。最近某互联网公司就开始实施按代码行数给程序员算工资,结果却被坑了一把:根据网友所说,这家公司的...原创 2019-05-07 21:59:39 · 2366 阅读 · 0 评论 -
想学java大数据还不知道这些怎么行?
划重点互联网发展瞬息万变,程序员就是用一行行代码改变世界,设想你做的app被大家喜爱,你做的网站深受大家亲睐的时候,那种成就感自然是不言而喻的。本文达妹就为大家总结在学习IT技术前,程序员不得不掌握的技能,希望对你有帮助:1你能吃苦吗?为什么这么问?很简单,996大家听过吧,这是互联网行业奇葩工作时间。做程序员这行尤其是互联网企业里,加班是常有的事,遇到赶项目或者大事通宵也不是不可能...原创 2019-05-09 21:59:45 · 428 阅读 · 0 评论 -
快速了解kafka的基础架构
今天来聊下在大数据场景下比较流行的消息队列组件kafka。本篇文章将主要从理论角度来介绍。kafka是一款开源、追求高吞吐、实时性,可持久化的流式消息队列,可同时处理在线(消息)与离线应用(业务数据和日志)。在如今火热的大数据时代,得到了广泛的应用。整体架构kafka的消息以Topic进行归类,支持分布式distribution、可分区partition和可复制replicated的特...原创 2019-05-09 21:59:40 · 368 阅读 · 0 评论 -
数据同步之大数据下数据仓库的同步方式
数据仓库的特性是集成,把不同数据源、不同形式的数据整合在一起。大数据下的数据特点如下:①数据多样性:包括高度结构化,易于处理的结构化数据以及服务器日志、图片、视频等非结构化数据②数据量:传统的数据仓库每天的同步量在几百GB上下,大型的数据仓库每天达PB级别,甚至EB级别批量数据同步:1)离线的数据线仓库用于负责将不同数据源的数据同步到数据仓库,以及定时将数据同步到业务系统2)要...原创 2019-05-09 21:59:29 · 2010 阅读 · 1 评论 -
大数据、云计算系统顶级架构师课程学习路线图
大数据、云计算系统架构师顶级课程阶段一、大数据、云计算 - Hadoop大数据开发技术课程一、大数据运维之Linux基础本部分是基础课程,帮大家进入大数据领域打好Linux基础,以便更好地学习Hadoop,hbase,NoSQL,Spark,Storm,docker,openstack等众多课程。因为企业中的项目基本上都是使用Linux环境下搭建或部署的。 1)Linux系...原创 2019-05-09 21:59:34 · 2181 阅读 · 0 评论 -
学大数据培训纯粹是为了炫技?
学大数据开发纯粹是为了炫技?如果我们一味的追求大数据,炫技,而忽视行业思维的培养,那所学技能会像工具一样让许多人变为工具的奴隶。而真正建立新竞争力的人,是属于能够建立自己知识体系,真正把数据知识融合运用的人。大数据培训的知识学习掌握运用得当将会发挥巨大的能量。目前,互联网公开资源,包括网络公开课等,已经具有很好的学习环境,各类数据人不断在输出技能。相信只要有心,一定能够找到自身发展的特点,...原创 2019-05-09 21:59:43 · 412 阅读 · 0 评论 -
推荐:成为大数据开发全能高手的100篇文章
开源(Open Source)用之于大数据技术,其作用有二:一方面,在大数据技术变革之路上,开源在众人之力和众人之智推动下,摧枯拉朽,吐故纳新,扮演着非常重要的推动作用。另一方面,开源也给大数据技术构建了一个异常复杂的生态系统。每一天,都有一大堆“新”框架、“新”类库或“新”工具,犹如雨后春笋般涌出,乱花渐欲“迷”人眼。为了掌控住这些“新玩意”,数据分析的达人们不得不“殚精竭虑”地“学而时习之...原创 2019-02-20 10:21:58 · 839 阅读 · 0 评论 -
数据科学新人需要知道的13个雷区
数据科学新人需要知道的13个雷区看来你已经决定要进入数据科学这个领域了。数据正在驱动越来越多的业务,世界的联系正在变得越来越紧密,似乎每个业务都需要数据科学实践。因此,对数据科学家的需求是巨大的。更好的是,所有人都承认这个行业的人才短缺。然而成为一名数据科学家并不容易。需要拥有解决问题的能力、结构化思维、编码和各种技术技能才能真正获得成功。如果您并非技术或数学背景,那么通过书籍和视频课程来...原创 2019-02-25 15:38:11 · 239 阅读 · 0 评论 -
一文揭晓:大数据是什么?大数据如何分类?又该怎么学?
第一:大数据定义大数据,又称巨量资料,指的是所涉及的数据资料量规模巨大到无法通过人脑甚至主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。首先给大家介绍什么叫大数据,大数据最早是在2006年谷歌提出来的,百度给他的定义为巨量数据集合,辅相成在今天大数据技术随着互联网的发展,更加迅速的成长,小到个人,企业,达到国家安全,大数据的作用可见一斑,也就是近几...原创 2018-12-24 11:17:40 · 12896 阅读 · 0 评论 -
明知是坑你还跳?学习大数据开发的终极“脱坑”指南!
近三年,大数据这个词出现的频次非常高,不仅纳入各大互联网巨头公司的战略规划中,同时也在国家的政府报告中多次提及,大数据已无疑成为当今时代的新宠。大数据给大多数人的感觉是,专业性强,门槛高,完全属于“高大上”的技术。好奇的人或许会通过网络了解一些概念,而有一些人则看到了大数据带来的机遇,投入大数据学习的洪流当中,投身大数据行业为自己带来利益。经历“坎坷”的学习大数据历程后,在求学之路上有哪些具体容易...原创 2018-12-28 22:13:59 · 314 阅读 · 0 评论 -
如何选择正确的数据集成工具
如今的数据往往来自文件系统、数据湖或存储库。为了满足各类业务需求,我们必须将数据与其他数据源的记录系统相集成,从而支持分析、面向客户的应用程序或者内部工作流。而这又带来了新的问题——我们该如何选择正确的数据集成工具,从而对各类数据加以归纳?今天的文章将就此展开探讨。 大数据 数据不在一个数据库,文件系统,数据库或存储库中。为了满足许多业务需求,必须将数据与其他数据源的记录系统集成,然后用于...原创 2018-12-18 10:55:16 · 1081 阅读 · 0 评论 -
【技术分享】最新小编整理离线分析的大数据技术集锦
大数据相关体系梳理:今天小伙伴突然问我大数据都学习了些神马?就有了如下的对话,我也决定为她好好解答一下疑问。so,我们今天主要是以离线数据处理的技术为主。1、zookeeper大家知道大数据是对海量数据的处理,对于这种海量的存储一般就会用到分布式集群,然而分布式环境下常见的问题比如:集群管理、统一命名服务,信息配置管理,分布式锁等就需要一个技术来处理,这个技术就是zookeeper。zook...原创 2018-12-11 23:42:45 · 436 阅读 · 0 评论