人工智能
文章平均质量分 89
aa541505
这个作者很懒,什么都没留下…
展开
-
大数据所具备的四个特点,清楚知道大数据原理原则
说起大数据,估计大家都觉得只听过概念,但是具体是什么东西,怎么定义,没有一个标准的东西,因为在我们的印象中好像很多公司都叫大数据公司,业务形态则有几百种,感觉不是很好理解,所以我建议还是从字面上来理解大数据,在维克托迈尔-舍恩伯格及肯尼斯库克耶编写的《大数据时代》提到了大数据的4个特征:1.大量大数据的特征首先就体现为“大”,从先Map3时代,一个小小的MB级别的Map3就可以满足很多人的...原创 2019-05-23 21:59:51 · 1255 阅读 · 0 评论 -
你应该知道的大数据领域12大动向
Actian发布VectorH 5.0数据库Actian首席营销官托尼·卡瓦诺(Tony Kavanaugh,图左)与Actian合作伙伴销售副总裁戴夫·休格曼(Dave Sugarman)在近期召开的2016年Hadoop峰会上交谈。Actian本周发布了Actian Vector in Hadoop(VectorH)5.0,这是该公司现已与Apache Spark集成起...原创 2019-05-17 20:25:13 · 2009 阅读 · 0 评论 -
Spark从入门到调优,是否有捷径可走?
Mohammed Guller撰写的《Spark大数据分析》(Big Data Analytics with Spark)一书针对使用Apache Spark框架执行批处理、互操作、图表、数据流分析,以及机器学习等不同类型的大数据分析项目提供了实用的学习指南。我们采访了本书以及各种大数据应用程序开发工具的作者Mohammed Guller。问:您对Apache Spark框架的定义是怎样的?该...原创 2019-05-17 20:24:21 · 224 阅读 · 1 评论 -
Spark大数据处理系列之Machine Learning
Spark的机器学习库(Spark MLlib),包括各种机器学习算法:协同过滤算法、聚类算法、分类算法和其他算法。在前面的《Spark大数据处理》系列文章,介绍Apache Spark框架,介绍如何使用Spark SQL库的SQL接口去访问数据,使用Spark Streaming进行实时流式数据处理和分析。在本篇文章,作者将讨论机器学习概念以及如何使用Spark MLlib来进行预测分析。后面将...原创 2019-05-17 20:23:33 · 1936 阅读 · 1 评论 -
谈谈对大数据的八个观点分析
越来越多程序员也涌入大数据行业,但是仔细问一些从业人员什么是大数据?鲜有人知道?就算知道的,最常引用Victor的4V理论,大量(Volume),快速(Velocity),种类多(Variety),价值(Value),但究竟多大是大?多快是快?几种算种类多?每个人都有自己的观点。最核心的问题还不在数量和种类,而是价值(Value)。什么是大数据的价值?如何体现它的价值?如何衡量它的价格 ?它能够变...原创 2019-05-17 20:22:09 · 3663 阅读 · 0 评论 -
大数据框架Kafka史上最详细原理总结-学完肯定是觉得干活满满
如果你恰好在学大数据,想要通过本篇文章就学好大数据,我建议你可以把页面关闭掉,大数据是入门学容易,达到高薪是绝对需要系统学习的,当然如果你想着通过大数据提高你的收入,可以详细阅读我推荐的文章推荐阅读文章大数据工程师在阿里面试流程是什么?学习大数据需要具备怎么样基础?年薪30K的大数据开发工程师的工作经验总结?KafkaKafka是最初由Linkedin公司开发,是一个分布式、...原创 2019-05-22 22:00:00 · 1961 阅读 · 1 评论 -
如何应对大数据的三大挑战?
当互联网与IT技术对传统产业的改造越来越深入,全社会的信息化程度越来越高时,各行各业会产生大量的用户大数据。大数据已经成国家战略,事关中国经济的转型与升级,以及中国在全球经济、政治、文化上的竞争力。在2015年第四届中关村大数据日的活动上,分享嘉宾来自各行各业。从个人出行到工业大数据,从能源到企业服务,大数据正快速与企业结合,拥有勃勃生机。围绕着“共享共融 数创未来”这个主题,在第四届中关村大数据...原创 2019-05-16 21:59:25 · 3236 阅读 · 0 评论 -
大数据告诉你什么样的密码最牢靠
对于密码,我们已经知道了不少。比如,多数密码短小、简单、且容易破解。但我们对一个人选择某个密码的心理原因却所知甚少。在本文中,我们分析了包括企业CEO、科学家在内的1000万人们的密码选择,来看看密码背后所揭示的意义。你脑海中浮现出的第一个超级英雄是谁?从1到10你首先会想到哪个数字?最后一个问题,你会选择哪种鲜艳的色彩?快速想出答案,然后将它们组合成一个短语。现在,轮到我们猜测这个密码了。...原创 2019-05-16 21:59:18 · 550 阅读 · 0 评论 -
数据科学家告诉你5个学习大数据的正确姿势!
对于数据科学来说,现在是发展的黄金时期。这是个新领域,但增长迅速,同时数据科学家的缺口也很大,据说他们的平均年薪可以达到10万美元。哪里有高薪,哪里就吸引人们,但是数据科学技能的差距意味着许多人需要努力学习。第一步当然是询问“我怎么学习数据科学”,这个问题的答案往往是一长串的课程和书籍阅读,从线性代数到统计数据,这几年我也是这样学习过来的。我没有编程背景,但我知道我喜欢处理数据。我比较不能理解...原创 2019-05-16 21:59:16 · 139 阅读 · 0 评论 -
怎样进行大数据的入门级学习?
数据科学并没有一个独立的学科体系,统计学,机器学习,数据挖掘,数据库,分布式计算,云计算,信息可视化等技术或方法都可以来对付数据从狭义上来看,我认为数据科学就是解决三个问题:1. data pre-processing;(数据预处理)2. data interpretation;(数据解读)3.data modeling and analysis.(数据建模与分析)...原创 2019-05-16 21:59:14 · 246 阅读 · 0 评论 -
大数据7大最奇特的应用
在客户体验与库存管理流程方面,大数据通常会发挥重要作用。近来,我盘点了7个最有趣、最独特的大数据应用,以及它们可能对我们的生活产生的影响。1.大数据广告牌户外营销公司Route正使用大数据在广告牌、长椅以及公交车两侧的广告空间上设定定价模式。从传统上来看,户外媒体的广告定价主要基于“每印象” (per impression)收取费用,即每天有多少人看到广告。现在这种模式已经发生改变,它们...原创 2019-05-16 21:58:51 · 301 阅读 · 0 评论 -
五年后,大数据会怎样改变我们的生活
全球大数据和数据分析领导企业Teradata天睿公司(纽交所上市公司,2007年从母公司 NCR 公司剥离独立)每年举办一次全球用户大会(Teradata Partners),我们讨论大数据不过三五年的事情,但是这场业内规模最大的数据分析峰会已经开了30年了。你能想到想不到的最资深的行业、商业智能、数据仓库和大数据专家,而且全球大名鼎鼎的数据驱动型企业的用户代表也都在这儿了。会议间隙,记者采访了T...原创 2019-05-16 21:58:48 · 1056 阅读 · 0 评论 -
Hadoop, 深入分析大数据集成与安全问题
信息爆炸般闯入了我们的生活,就像一个巨大的玩具盒,里面应有尽有。网络早期只有几百页,手工就能索引查询;到现在页面飙升至数百万级别,每天还有数千的新增页面,想要找到某样东西的时候,如何搜寻就成了挑战。像雅虎和谷歌这样的搜索引擎首先发现了这件事:想要让网络可用而易控,需要自动化处理大数据的办法——保存、阐释信息,对其分类并通过命令检索。需求产生:人们需要更优秀的自动化搜索引擎。正是这种需求推...原创 2019-05-16 21:59:20 · 275 阅读 · 0 评论 -
大数据的本质和核心是什么
一、一场以大数据为核心的智能盛宴 时下仿佛大家都在谈人工智能,就像当年人人都在谈大数据一样。在不同场合上,阿里巴巴的马云、百度的李彦宏及腾讯的马化腾分别谈过自己对人工智能的看法和观点。这种对话有点儿像金庸小说中的华山论剑。到底是气宗( 大数据)还是剑宗(人工智能)更有战略意义?我认为,两者是相辅相成的。经历了互联网20 年的发展,我们已经积累了足够多的数据去驱动一场“智能盛宴”,以大数据为核心...原创 2019-05-25 17:59:58 · 6373 阅读 · 0 评论 -
大数据框架Hadoop中理论与工程的错位
Hadoop是当前重要的大数据计算平台,它试图摒弃传统数据库的理念,重新构建一套新的大数据体系。但是,这并不是件很容易的事,在Hadoop的设计和实现中能看到一些先天不足的地方,其中一点就是把理论问题和工程问题给搞拧了。 所谓理论方法,是指试图解决问题的一般情况,设计通用的算法能适应尽量多的情况,并努力使算法的复杂度降低。在研究问题时不会考虑具体环境下某个具体动作是否可以执行以及该动作消耗的资...原创 2019-05-25 18:00:00 · 268 阅读 · 0 评论 -
如何使用HBase?大数据存储的两个实战场景
HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,适用于结构化的存储,底层依赖于Hadoop的HDFS,利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群。因此HBase被广泛使用在大数据存储的解决方案中。 为何使用HBase HBase的优点: - 列可以动态增加,并且列为空就不存储数据,节省存储空间。 - Hbase自动切分数据,使得数据存储自...原创 2019-05-24 21:59:51 · 563 阅读 · 0 评论 -
Hadoop、Hive、Spark 之间是什么关系?
大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择。大数据,首先你要能存的下大数据传统的文件系统是单机的,不能横跨不同的机...原创 2019-05-17 20:26:21 · 197 阅读 · 0 评论 -
数据控使用Hadoop的三种最常用方式
Hadoop使用的一般模式Hadoop最初的构想是为像Yahoo、Google、Facebook等这样的公司以非常低的成本来解决大量数据的存储问题。现在,它正被越来越多地引入企业环境中处理新不同数据类型。机器生成的数据、传感器数据、社交数据、网络日志等数据类型呈指数级增长,而且这些数据也常常(但不总是)是非结构化。正是由于这种类型的数据将人机对话从“数据分析”带到大数据分析:因为挖掘这些数据可...原创 2019-05-17 20:27:25 · 292 阅读 · 0 评论 -
老程序员告诉你什么是大数据框架
大数据架构是用于摄取和处理大量数据(通常称为“大数据”)的总体系统,因此可以针对业务目的进行分析。该架构可视为基于组织业务需求的大数据解决方案的蓝图。大数据架构旨在处理以下类型的工作:•批量处理大数据源。•实时处理大数据。•预测分析和机器学习。精心设计的大数据架构可以节省企业资金,并帮助其预测未来趋势,从而做出明智的业务决策。大数据架构的好处...原创 2019-05-23 21:59:53 · 789 阅读 · 0 评论 -
顶尖工程师处理大数据所需的技能
数据分析师的工作包括收集、清理、可视化信息块,并将原始数据转换或建模为营销人员、开发人员、会计师使用。数据分析师的工作流程是由组织的需求定义的,但最终的可交付成果总是相同的:结构良好且易于检索的数据。作为一名数据分析师,需要具有分析头脑、强大的数学技能和灵活性。虽然这主要是数据科学家的先决条件,但也需要一系列的编程知识。根据Payscale公司发布的统计数据,数据分析师的年薪在...原创 2019-05-23 21:59:58 · 788 阅读 · 0 评论 -
大数据、机器学习和人工智能未来发展的8个因素
人工智能和机器学习以及不断增加的数据量正在改变当前的商业和社会格局。这些领域中出现了许多需要CIO注意的主题和问题。日前,O'Reilly 公司在伦敦Strata举办了一个为期数天的数据会议,与会者为此更好地了解大数据、机器学习(ML)和人工智能的发展方向。这些新兴技术在过去5年中发展迅速,而新技术、流程和应用程序改变了组织管理数据的方式。此次数据会议提供了一个很好的技术发展晴雨表,与会者...原创 2019-05-23 22:00:00 · 402 阅读 · 0 评论 -
大数据零基础学习hadoop入门教程
1、Hadoop生态概况Hadoop是一个由Apache基金会所开发的分布式系统集成架构,用户可以在不了解分布式底层细节情况下,开发分布式程序,充分利用集群的威力来进行高速运算与存储,具有可靠、高效、可伸缩的特点Hadoop的核心是YARN,HDFS,Mapreduce,常用模块架构如下2、HDFS源自谷歌的GFS论文,发表于2013年10月,HDFS是GFS的克隆版,H...原创 2019-05-18 21:44:41 · 2107 阅读 · 0 评论 -
大数据和深度学习有什么区别?
简单来说:1)深度学习(Deep Learning)只是机器学习(Machine Learning)的一种类别,一个子领域。机器学习 > 深度学习2)大数据(Big Data)不是具体的方法,甚至不算具体的研究学科,而只是对某一类问题,或需处理的数据的描述具体来说:1)机器学习(Machine Learning)是一个大的方向,里面包括了很多种 approach,比如 d...原创 2019-05-18 21:44:39 · 1466 阅读 · 0 评论 -
数据统计、数据挖掘、大数据、OLAP的区别
大数据、OLAP、数据统计的区别。一、数据分析数据分析是一个大的概念,理论上任何对数据进行计算、处理从而得出一些有意义的结论的过程,都叫数据分析。从数据本身的复杂程度、以及对数据进行处理的复杂度和深度来看,可以把数据分析分为以下4个层次:数据统计,OLAP,数据挖掘,大数据。二、数据统计数据统计是最基本、最传统的数据分析,自古有之。是指通过统计学方法...原创 2019-05-18 21:44:37 · 480 阅读 · 0 评论 -
关于大数据方面的6个预测
1. 人工智能(AI)重新流行在上世纪60年代,Ray Solomonoff奠定了人工智能的数学理论基础,介绍了归纳推理和预测的通用贝叶斯方法。1980年,美国人工智能协会第一次全国会议(AAAI)于斯坦福举行,标志了理论在软件开发中的应用。AI现在又回到主流的讨论中,引发了机器智能、机器学习、神经网络、认知计算等一系列流行语。为什么AI有年轻化的趋势?这里面有个三V想法:速度,变化和体量。...原创 2019-05-18 21:29:34 · 2349 阅读 · 0 评论 -
大数据技术面临的三个重要技术问题
大数据技术面临的三个重要技术问题,我们一起来看看。当今,大数据的到来,已经成为现实生活中无法逃避的挑战。每当我们要做出决策的时候,大数据就无处不在。大数据术语广泛地出现也使得人们渐渐明白了它的重要性。大数据渐渐向人们展现了它为学术、工业和政府带来的巨大机遇。与此同时,大数据也向参与的各方提出了巨大的挑战,首先是大数据技术面临的三个重要问题:一、如何利用信息技术等手段处理非结构化和半结构化数据...原创 2019-05-18 21:29:06 · 1078 阅读 · 0 评论 -
大数据学习入门必学的32个算法
奥地利符号计算研究所(Research Institute for Symbolic Computation,简称RISC)的Christoph Koutschan博士在自己的页面上发布了一篇文章,提到他做了一个调查,参与者大多数是计算机科学家,他请这些科学家投票选出最重要的算法,以下是这次调查的结果,按照英文名称字母顺序排序。1、A* 搜索算法——图形搜索算法,从给定起点到给定终点计算出路径...原创 2019-05-18 21:27:48 · 1220 阅读 · 0 评论 -
全面解析大数据批处理框架Spring Batch
是时候和我们一起来了解下批处理的世界哪些优秀的框架和设计了,今天我将以Spring Batch为例,和大家一起探秘批处理的世界。初识批处理典型场景 探秘领域模型及关键架构 实现作业健壮性与扩展性 批处理框架的不足与增强批处理典型业务场景对账是典型的批处理业务处理场景,各个金融机构的往来业务和跨主机系统的业务都会涉及到对账的过程,如大小额支付、银联交易、人行往来、现金管理、POS业...原创 2019-05-18 21:44:43 · 378 阅读 · 0 评论 -
机器学习、数据科学、人工智能、深度学习、统计学等的区别
1. 数据科学家的各种类型想要开始并且了解一些以前的观点,不妨参考2014年发布的文章“ 9 types of data scientists”或者同年另一篇文章比较数据科学和“16 analytic disciplines”。更近一点的(2016八月) Ajit Jaokar 讨论了Analytics data scientist(Type A)和Builder data scientist...原创 2019-05-18 21:27:40 · 630 阅读 · 0 评论 -
大数据架构Hadoop、Spark和Storm 三者技术对比
从人工统计分析到电脑 大型机再到今天的分布式计算平台,数据处理速度飞速提高的背后则是整体架构的不断演进。今天大数据架构最火热的莫过于Hadoop,Spark和Storm这三种,而Spark和Storm这两个后起之秀更是抢了不少Hadoop的风头,也让网上逐渐开始有一种声音说Hadoop的日子已经快到头了。但究竟这三者之间是什么关系,未来大数据架构究竟该走向何方呢?短短几年时间,大数据这个词便已家...原创 2019-05-18 21:25:54 · 1034 阅读 · 0 评论 -
如何成为一名大数据工程师?
作为IT类职业中的“大熊猫”,大数据工程师这个职业在国内人才市场可谓是一颗闪耀的新星。由于刚刚出于萌芽阶段,这个领域出现很大的人才缺口。大数据是眼下非常时髦的技术名词,与此同时自然也催生出了一些与大数据处理相关的职业,通过对数据的挖掘分析来影响企业的商业决策。这群人在国外被叫做数据科学家(Data Scientist),这个头衔最早由D.J.Pati和Jeff Hammerbacher于2...原创 2019-05-17 20:31:05 · 1002 阅读 · 0 评论 -
关于新手入门:Spark 部署实战入门
Spark简介整体认识Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。Spark在整个大数据系统中处于中间偏上层的地位,如下图,对hadoop起到了补充作用:基本概念Fork/Join框架是Java7提供了的一个用于并行执行任务的框架, 是一个把大...原创 2019-05-17 20:29:50 · 366 阅读 · 0 评论 -
九种引人瞩目的开源大数据技术
1.Apache HadoopApache hadoop是一个开源的分布式计算框架,最初由Doug为支持其开源Web搜索引擎Nutch所创立。通过集成MapReduce技术,Hadoop将大数据分布到多个数据节点上进行处理。Hadoop遵循Apache 2.0许可证,可以轻松处理结构化、半结构化和非结构化数据,一举成为现在非常流行的大数据解决方案,2.R语言R语言是一种...原创 2019-05-17 20:28:18 · 1483 阅读 · 2 评论 -
大数据入门选择python大数据么?现在程序员都是喜欢这个
Python是适合做大数据分析的计算机语言吗?如今是一个大数据时代,通过数据分析,我们可以得到任何我们想知道的事情,充分挖掘数据的价值。之前有人说过JAVA语言是最适合做数据分析的计算机编程语言之一,在这里,我想说其实Python大数据也是大数据分析最受欢迎的编程语言。 Python是一个强大的,灵活的,开放的,易于学习的源语言,使用方便,并具有强大的数据操作和分析库。其简单的语法使编程新手很...原创 2019-05-24 21:59:59 · 471 阅读 · 0 评论 -
大数据架构五个顶级框架你知道几个
自从像AWS这样的公共云产品开辟了大数据分析功能以来,小企业通过挖掘大量的数据做到只有大企业才能做到的事情,至今大约有10年时间。这些事情其中包括网络日志、客户购买记录等,并通过按使需付费的方式提供低成本的商品集群。在这十年中,这些产品蓬勃发展,涵盖了从实时(亚秒级延迟)流媒体式分析到用于分析批量模式工作的企业数据仓库,而企业数据仓库则可能需要数天或数周才能完成。 以下将介绍用于大数据堆栈的五...原创 2019-05-24 21:59:57 · 1048 阅读 · 0 评论 -
搭建Hadoop大数据处理-环境
VMware的安装,装好一个虚拟机后利用复制虚拟机的方式创建后面几个虚拟机,省时省力,需要注意的是需要修改每个虚拟机的IP与主机名。所有虚拟机采用NAT模式上网,而且要保证与物理主机的IP互相能访问。需要注意的几个问题。nat如果上网首先需要查看物理机(pc机)这个服务器已经启动。上网的原理:流量是走的物理网卡,但是它的ip,却是和物理机没有关系的。 也就是说,无论你怎么更换网络环境,你的...原创 2019-05-19 21:58:50 · 198 阅读 · 0 评论 -
大数据框架Flink, Spark, Hadoop, Samza ,Storm选择和对比
美国PC,Magazine总编辑柯斯塔今天表示,他认为大数据的发展趋势以数字汇流对未来最具冲击,结合物联网、区块链、人工智能、语音识别等技术,这些科技相辅相成。美国PC,Magazine总编辑柯斯塔今天表示,他认为大数据的发展趋势以数字汇流对未来最具冲击,结合物联网、区块链、人工智能、语音识别等技术,这些科技相辅相成。大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的...原创 2019-05-19 21:59:34 · 301 阅读 · 0 评论 -
大数据未来有哪些趋势,人工智能,区块链?
柯斯塔指出,他认为大数据未来应用有七大趋势。第一个趋势是物联网,现今有84亿件物品互相连结,远大于全球人口数;不只是桌电、笔电或手机等3C产品相互链接,还有物流公司用智慧扫描仪做智慧物流,这是可以改变消费者与企业的趋势,但存在资安风险的问题。第二个趋势是智慧城市,这项趋势的成败取决于数据量跟数据是否足够,这有赖于政府部门与民营企业的合作;此外,发展中的5G网络是全世界通用的规格,如果产品被...原创 2019-05-19 22:00:00 · 1519 阅读 · 0 评论 -
大数据查询工具HBase读写设计与实践
背景介绍本项目主要解决 check 和 opinion2 张历史数据表(历史数据是指当业务发生过程中的完整中间流程和结果数据)的在线查询。原实现基于 Oracle 提供存储查询服务,随着数据量的不断增加,在写入和读取过程中面临性能问题,且历史数据仅供业务查询参考,并不影响实际流程,从系统结构上来说,放在业务链条上游比较重。本项目将其置于下游大数据处理hadoop分布式平台来实现此需求。下面列一...原创 2019-05-19 21:48:30 · 382 阅读 · 0 评论 -
大数据时代,人类需要“遗忘权”
遗忘作为一种生理机制,如何影响人类的决策?遗忘在人类决策过程中扮演了重要的角色,遗忘使得我们能够及时地进行行动。知晓往事,但又不受往事的束缚。完善的数字化记忆,可能会让我们失去一项人类重要的能力——坚定地生活在当下的能力。博尔赫斯的短篇小说《博闻强识的富内斯》展现了这一论点。由于一次骑马的事故,年轻人富内斯失去了遗忘的能力。通过惊人的阅读,他积累了大量关于经典文学作品的记忆,但却无法超越字面...原创 2019-05-14 21:10:39 · 712 阅读 · 0 评论