自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 收藏
  • 关注

原创 RDD数据结构,将成为Spark的核心模块!

要玩转大数据,Spark是一款很好的通用的并行计算框架。而经常接触Spark的数据人都会对RDD有一定的了解。那么,RDD到底是什么呢?今天,一起和大圣众包威客平台(www.dashengzb.cn)深入探讨RDD的相关知识点!  概括|RDD的基本介绍  RDD的全称是Resilient Distributed Datasets,顾名思义即为容错的、并行的数据结构。RDD

2016-12-30 15:46:32 1186

转载 MongoDB数据库优劣点及其使用!

有专门的SQL背景的人钻研NoSQL看起来是一项艰巨的任务。我曾经在小型MySQL环境和大型Oracle SQL环境使用过SQL。下面就从一个SQL用户的角度来看看MongoDB的优势、弱点、特性和使用。  MongoDB在什么时候是一个不错的选择?  MongoDB是一个令人难以置信地健壮的、可扩展的、操作简便的数据库解决方案。 MongoDB是一个不错的选择,当你的开发

2016-12-30 10:01:20 2014

转载 合格的数据分析师需要具备哪些能力?

数据分析师,随着大数据的火热,已成为各大公司标配,无论是简单数据分析、excel处理还是数据挖掘、建模等,都体现了企业对数据的重视,因此,数据分析师对应的要求也越来越高。那么,作为一名优秀的数据分析师,到底需要哪些能力呢?下面我们大圣众包(www.dashengzb.cn)小编就为大家分享一篇网络文章,看看如何成为合格数据分析师!  1.业务能力  只要真的在实践领域从事过

2016-12-29 11:34:19 15303 1

原创 圣诞虽好,可别忘了背后的一些数据!

“Jinglebells,jinglebells,jinglealltheway……”每当响起这首欢快的圣诞歌曲时,我们知道,一年一度浪漫的圣诞节又来了。昨天的圣诞节你是如何度过的?节日虽好,可别光顾着玩哦!其实很多人也只是盲目跟从,关于圣诞的事却没懂多少?今天我们大圣众包小编就从大数据与BI方面为你揭秘圣诞节的一些小事!  “圣诞精灵”,带来个性化惊喜  说起圣诞节,很多人会想到

2016-12-28 18:02:21 617

转载 阿里云公司Hadoop研发的要求,看看人家需要什么样的人才?

年末除了关心奖金之外,大多数人都有一颗蠢蠢欲动的心——跳槽,希望来年能找到福利待遇更好、更有规模的企业,但你对自己能力是否有信心呢?现在我们大圣众包(www.dashengzb.cn)小编就分享一篇来自阿里云公司对Hadoop研发岗位的要求,看看人家需要什么样的人才,需要什么技能呢?  面试部分  基本能力  语言基础知识(一般需要在某语言2年以上经验)比如:JVM

2016-12-28 11:15:31 2353

原创 2017年大数据可能的8大发展,值得研究!

2017年即将到来,全球各行业都在此时都回顾2016年的发展情况与问题,寄希望于2017年,展开大胆假设,分析来年的发展情况。现在我们大圣众包(www.dashengzb.cn)就为大家讲讲2017年大数据可能的8大发展!  1、开放源码hadoop、spark等将继续扩大  越来越多的企业选择Hadoop或者Spark等开源程序,调查发现今年年底,近60%企业的Hadoo

2016-12-27 15:22:48 674

转载 分析:大数据失败案例及背后原因!

大数据,时下最火热的词之一,覆盖了经济、互联网、物流等各行各业,无论是大公司知名公司还是中小企业都纷纷投入,希望能占得先机,但不是每一个项目都会成功。因此,我们大圣众包(www.dashengzb.cn)盘点了几个大数据失败案例,深究其原因,让我们从中吸取教训  大数据项目失败案例  对数据过于相信:2008年,Google第一次开始预测流感就取得了很好的效果,比美国疾病预

2016-12-26 15:35:09 10491

转载 R语言中常用的Data Frame数据框操作!

我们做数据分析、数据挖掘常用到R语言来处理,而运用得好坏常常关系到函数的熟练程度,下面我们大圣众包小编就为大家总结下R语言当中常用的Data Frame数据框基本操作!    Data Frame的概念  Data Frame一般被翻译为数据框,感觉就像是R中的表,由行和列组成,与Matrix不同的是,每个列可以是不同的数据类型,而Matrix是必须相同的。  Da

2016-12-26 11:25:49 102369 1

原创 15道机器学习面试题,让你顺利得到offer!

DT时代,机器学习作为一门热门的科学研究项目,也成为了众多IT人想要进修或从事的领域。现在,大圣众包威客平台(www.dashengzb.cn)便为大家搜罗15道或常见或棘手的机器学习面试题目,让欲从事相关工作的IT人能够更加从容地走上机器学习专家之路。  问1:你会在时间序列数据集上使用什么交叉验证技术?是用k倍或LOOCV?  答:都不是。对于时间序列问题,k倍可能会很

2016-12-23 16:48:13 13643

转载 哪些趋势将成为2017年商业智能领域重中之重?

2017年即将到来,有许多期许和展望,而2016年一年IT行业迅速发展,影响了诸多方面。今天大圣众包分享来自车品觉老师对2017年商业智能的发展趋势的看法。看看哪些趋势会成为2017年商业智能领域的重中之重呢?  在过去几年里,新趋势已经出现,对企业的运作、互动、交流、协作和安全产生了巨大影响。八大IT“元趋势”影响着企业策略、经营和投资的方方面面。  ·数字化  ·消费化

2016-12-23 11:33:53 829

转载 邮件营销在大数据下该怎么运作?

大数据和大逻辑,正在成为我们通向成功的路径。正如在实践邮件营销的道路中,邮件营销生态系统也正在变得更加复杂,也开始拥有越来越多具有价值的数据点,那么接下来邮件营销的道路究竟在什么方向呢?今天,我们就一起看看,在目前市场环境背景下,邮件营销运作主要遵循哪些大逻辑概念?  1.生命周期逻辑  尽管理解和利用生命周期的逻辑病不是一个新的概念,许多电子邮件营销者现在都开始应用它,欣

2016-12-22 16:01:15 1626

原创 教你3招实用的网站数据分析技能!

DT时代,随着“互联网+”经济发展新形态的推动,结合大数据迅猛发展的时代背景,网站数据的关注度越来越高,分析网站数据从而获得更广的曝光度成为不少互联网企业的目标。现在,大圣众包威客平台便为网站运营和互联网营销从业者整理总结3招技能,赶紧上车!  一、确保数据源的精度与广度,实现全方位无死角分析  众所周知,越真切精确的数据,数据分析得出的结论越精确;数据量越多,越可以减小误

2016-12-22 11:00:05 699

转载 大数据在物流领域有哪些应用呢?

大数据一词已经渗透到各行各业,可见发展之快,价值之大,但实际上我们对大数据的挖掘只是冰山一角。今天我们大圣众包包就从物流行业,说说所谓的物流大数据的应用,物流大数据应用现处于起步阶段,发展比较缓慢,但互联网、电商蓬勃发展给物流大数据带来更多可能。  先来看看概念,所谓物流大数据,即运输、仓储、搬运装卸、包装及流通加工等物流环节中涉及的数据、信息等。通过大数据分析可以提高运输与配送效率、减少

2016-12-21 17:06:20 26482 1

原创 2017年值得关注的编程语言和工具!

IT技术行业需求日益增大,福利待遇也是越来越好,发展也越来越迅猛,现临近2017年,回顾2016,我们it技术语言、工具上也发生了不少变化,不少新兴的语言冒出来,得到更多人的认识使用,下面我们大圣众包小编为大家介绍下2017年可能火爆的编程语言和工具!  编程语言  JavaScript 继续迈着大步前进,由于 Web 浏览器的快速发布计划,JS 的标准每年都有更新。故“E

2016-12-21 09:59:42 1509

转载 探讨:2017年大数据发展前景及面临的问题!

大数据时代已经到来,它将颠覆一个个行业,使得世界格局发生重大变化。如今2016年即将结束,我们期许大数据在未来能有更大的发展,更多的可能。下面大圣众包(www.dashengzb.cn)带领大家一起看看2017年大数据的发展前景及其可能面临的问题。  Xavient 信息系统的云计算和大数据主管Neeraj Sabharwal认为:大数据将会越来越大,大到让那些企图处理大量且更复杂

2016-12-20 17:41:28 2661

转载 mapreduce和storm两者处理数据的区别!

数据处理对于从事数据工作的朋友是每天日常工作了,但全量数据处理也常常借助系统软件,比如最常用的是hadoop、hive、apachestorm等等.今天我们大圣众包(www.dashengzb.cn)小编就为大家解答下mapreduce和storm这两者之间的区别,它们做数据处理过程的差异!  首先,先来说下storm是典型的流计算系统,mapreduce是典型的批处理系统。

2016-12-20 11:12:02 4436

转载 数学分析常用的4款软件对比!

从事数据分析都知道软件是必不可少的,目前比较流行和著名的数学软件主要有四个,分别是Maple、MATLAB、MathCAD和Mathematica。但它们都有各自的优缺点。下面我们大圣众包跟大家分享一篇来自化学数据联盟关于数学软件的对比文章。  Maple V 系统  Maple V是由Waterloo大学开发的数学系统软件,它不但具有精确的数值处理功能,而且具有无以伦比的

2016-12-19 11:39:50 26926

转载 常用Hadoop平台的SQl优化方法!

要正确的优化SQL,必须能快速定位性能瓶颈点,或者说快速找到SQL主要的开销所在。最慢的设备通常是瓶颈点所在,如文件下载时的瓶颈点可能是网络速度,本地文件复制时的瓶颈点可能在于硬盘性能。  为了快速找到SQL的性能瓶颈点,首先需要读者对各种设备的性能数据有一些基本的认识,如千兆网络带宽是1000Mbps,硬盘转速为每分钟7200/10000转等。  下图数据给出了一些当前主

2016-12-16 17:18:27 932

转载 2017年大数据哪些趋势可能会影响到你呢?

又到了一年年末,2016年发生了太多。谷歌的围棋机器人“阿尔法狗(AlphaGo)”在比赛中击败了围棋世界冠军李世石;黑科技“区块链”真的火起来了;世界各国的政府也在加大对建立智慧城市的投资。我从2013年开始,每年都会对下一年的大数据趋势做出分析,2017年有望成为大数据的宏大之年。对大数据的炒作终于结束了,因此我们也终于可以开始着手发展大数据。这就是为什么我会把2017年称作”智能之年”。那么

2016-12-16 09:29:25 1085

原创 初学python,看这些书就够了!

“不经一番寒彻骨,怎得梅花扑鼻香。”穷到吃土,却还想着升职加薪当上CEO迎娶白富美攀上人生巅峰,但是又懒散不学习,这很不科学。迎接大数据浪潮,大家可以从大数据技术的教学书籍上下手,早日脱离苦海,今天我们大圣众包小编继续为大家精选几本python的书籍!《Python学习手册(第4版)》  【内容介绍】通过《Python学习手册(第4版)》,可以学习到Pyth

2016-12-15 11:22:51 39535 5

原创 大数据处理引擎Spark与Flink对比分析!

大数据技术正飞速地发展着,催生出一代又一代快速便捷的大数据处理引擎,无论是Hadoop、Storm,还是后来的Spark、Flink。然而,毕竟没有哪一个框架可以完全支持所有的应用场景,也就说明不可能有任何一个框架可以完全取代另一个。今天,大圣众包威客平台(www.dashengzb.cn)将从几个项出发着重对比Spark与Flink这两个大数据处理引擎,探讨其两者的区别。  一、

2016-12-14 09:48:17 6299 1

转载 来自通讯行业的大数据从业者的真实感悟!

大数据应用已经十分广泛,需求越来越大,先不说使用的程度如何,但作为数据工程师你知道最重要的能力是什么吗?下面大圣众包小编给大家分享一篇来自通讯行业的大数据从业者的真实感悟,看看他对通讯行业数据工程师有哪些建议。  真正从数据挖掘项目实践的角度讲,沟通能力对挖掘的兴趣爱好是最重要的,有了爱好才可以愿意钻研,有了不错的沟通能力,才可以正确理解业务问题,才能正确把业务问题转化成挖掘问题,才可以在

2016-12-13 11:10:56 1411 1

转载 推荐:国外知名6家大数据领域企业!

近几年,大数据概念十分火热,发展迅猛,各个企业都希望在大数据领域能有建树,但国内的大数据企业做得还不够,所以今天我们大圣众包就推荐6个国外大数据领域的优秀企业,跟着人家学习学习,主要涵盖云计算、数据可视化、数据分析应用、商业智能等不同范畴的企业。  IT项目——IBM  IBM是世界三大IT巨头之一,很多公司在考虑到一些大型的IT项目是会想到IBM、SAP这类公司,其成熟的

2016-12-12 11:27:55 8566

转载 IT公司该如何落实机器学习?

Cisco发布的总结报告《泽字节时代:趋势和分析》中指出:2016年末,全球年度互联网流量将突破ZB大关(1ZB泽字节:1000EB艾字节),并将于2020年达到2.3ZB;互联网的流量将在未来五年内增长三倍;智能手机终端的流量将于2020年超过PC终端。(注:泽字节为十万亿亿字节)  TalkingData的机器学习  TalkingData的日均处理量,现在每天在Tal

2016-12-09 16:58:08 677

转载 3个案例教你用Spark解决Map Reduce问题!

Spark是一个Apache项目,它被标榜为“快如闪电的集群计算”。它拥有一个繁荣的开源社区,并且是目前最活跃的Apache项目。    Spark提供了一个更快、更通用的数据处理平台。和Hadoop相比,Spark可以让你的程序在内存中运行时速度提升100倍,或者在磁盘上运行时速度提升10倍。同时spark也让传统的mapreducejob开发变得更加简单快捷。之前我们大圣众包小

2016-12-09 11:34:46 2265

转载 大数据应用将颠覆传统的Saas吗?

随着大量的信息涌入互联网——90%的互联网是过去两年建立起来的——互联网公司正在想方设法去熟悉并利用大数据来推动他们的业务。正如SaaS和云技术一样完全变革了企业的运作方式一样,大数据应用(BDA)也同样可以。BDA是基于网络的应用,它通过解释和使用大量的企业和网络规模的数据,为他们的用户提供更智能的结果。  但真正的问题是:假如底层的数据结构使用Hadoop和noSQL会是什么样

2016-12-08 11:31:19 507

原创 推荐:web开发人员常用8个小工具!

随着技术发展,web网页开发要求越来越高,开发者都希望能更快速更高效更完美地展示,但工欲善其事必先利其器,今天我们大圣众包(www.dashengzb.cn)小编就为大家整理8个好用的web开发常用工具,希望可以收藏实践下。  1、Bootstrap  Bootstrap 是快速开发 Web 应用程序的前端工具包。它是一个 CSS 和 HTML 的集合,它使用了最新的浏览器

2016-12-07 18:01:26 6031 1

转载 SAS如何和HADOOP交互、集成?

经常有人咨询,SAS如何和HADOOP交互、集成?下面我们大圣众包小编分享一篇来自CSDN的Anyjack文章。在回答这个问题前,主要看HADOOP在SAS系统中的定位,有下面定位考虑:  1.把HADOOP作为传统数据源供SAS访问  这是最简单的一种应用场景,就是把HADOOP当做类似于ORACLE/DB2等之类的数据库源来使用,SAS有能力直接在HADOOP上进行数据

2016-12-07 10:44:55 4359

转载 关于NoSQL数据库的分类以及优缺点!

传统的关系系数据库已经无法应对数据日益庞大的企业,特别是互联网快速发展行业,因此现在企业IT架构中首先考虑使用NoSQL数据库。那什么是NoSQL数据库呢?今天大圣众包(www.dashengzb.cn)小编看到一篇来自化学数据联盟的文章,关于NoSQL数据库的分类以及各自的优缺点。  NoSQL顾名思义就是Not-OnlySQL,它可以作为关系型数据库的良好补充。在TechTar

2016-12-06 15:24:09 7969

原创 ApacheBeam:大数据处理的一大神器!

你知道被认为继MapReduce、GFS、BigQuery等之后,Google在大数据处理领域对开源社区的又一大贡献是哪个项目吗?答案是ApacheBeam。事实上,“Beam”这个项目名称已经很清楚地表明了它的设计初衷——统一批处理(Batch)模式和数据流(Stream)处理模式的标准。今天,请跟随大圣众包威客平台的脚步,一起了解ApacheBeam到底有多炫!  一、Apac

2016-12-05 10:08:32 17378 3

转载 干货:用R语言进行数据提取的方法!

数据提取是数据分析当中重要的一环,也是需要数据分析师耐心细心地做好。我们大圣众包(www.dashengzb.cn)小编今天就和大家分享蓝鲸的文章,如何通过R语言对数据进行提取分析,达到所需。  读取并创建数据表  首先第一步是读取数据,并创建名称为loandata的数据表。后面我们将从这个表中进行数据提取。  将数据表中的用户ID列设置为索引列,下

2016-12-01 14:31:42 199312 3

转载 干货:分析学中常用的3种分析方法!

自互联网普及以来,随着应用开发的深入,人类对网络认知越来越深,我们不只是简单打开浏览网页,而是各种操作,不定时打开、浏览不同的信息。因此,分析用户的行为也变得越来越复杂,越来越重要。但对于很多人来说,数据分析并不是简单易懂,所以今天大圣众包(www.dashengzb.cn)小编就介绍通用的分析学方法,主要从研究、测量和分析三方面入手,可以让你更直接明了。  研究  尽管基

2016-12-01 11:00:13 971

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除