自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(61)
  • 收藏
  • 关注

转载 掌握这五大技能,你就能去应聘数据分析师

数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出所研究对象的内在规律。几年前, 数据分析还是一个比较鲜见的职业。而今天,无论各行各业,它无处不在的闪烁着耀人的光芒。那么做数据分析需要掌握哪些技能呢?SQL和数据仓库是最需要的数据分析技术中的两项。数据和统...

2019-03-15 21:26:00 180

转载 现阶段大数据算法的困境是什么?

2013年,美国有一起充满争议的案子,一个因为偷窃罪被判刑的男人把威斯康星法院告了。原因是他被判整整8年有期徒刑,不是因为他的罪行,也不是因为法官的判断,而是因为一个AI(人工智能)认为,他对社会具有“高危险性”。大数据时代,我们关注最多的是数据的安全和隐私,然而,数据加上算法所带来的问题,或...

2019-03-15 17:38:00 633

转载 带你从算法原理看推荐策略

推荐算法简介目前的推荐算法一般分为四大类:协同过滤推荐算法基于内容的推荐算法混合推荐算法流行度推荐算法协同过滤的推荐算法协同过滤推荐算法应该算是一种用的最多的推荐算法,它是通过用户的历史数据来构建“用户相似矩阵”和“产品相似矩阵”来对用户进行相关item的推荐,以达到精准满足用户...

2019-03-15 17:00:00 423

转载 全面解析Bot框架:从机器人平台的区别到知名框架

科技巨头诸如 Facebook 和微软已经大规模发布了 Bot 框架,旨在量产聊天机器人。在 Facebook Messenger 上开发了超过 11,000 个聊天机器人,并且有近 23,000 个开发人员注册了 Facebook 机器人引擎。此外,大量初创公司拥有自属开发框架和功能性产品。...

2019-02-28 19:46:00 1624

转载 BATJ、网易等一线公司是怎样做大数据风控的?

大数据风控目前应该是前沿技术在金融领域的最成熟应用,相对于智能投顾、区块链等还在初期的金融科技应用,大数据风控目前已经在业界逐步普及,从BATJ这样的大企业,到交易规模比较大的网贷平台,再到做现金贷、消费金融的创业公司,都在通过大数据风控技术来控制贷款规模扩张中的风险。 大数据风控目前应...

2019-02-25 16:24:00 495

转载 数据及大数据的本质到底是什么?

最近几年,数据问题进入哲学视野。对于哲学家们探索的数据本质特征,我们可以从以下几个方面来把握。 数据与大数据 技术进步,主要是计算机、网络和各种类型的传感器以及云技术、分布式计算与存储等海量存储技术的广泛应用和运算能力极速进步,使得数据概念被大数据概念取代。数据量增加速度之快,大致可以...

2019-02-22 17:39:00 408

转载 大数据最核心的关键技术——32个算法

奥地利符号计算研究所的Christoph Koutschan博士在自己的页面上发布了一篇文章,提到他做了一个调查,参与者大多数是计算机科学家,他请这些科学家投票选出最重要的算法,以下是这次调查的结果,按照英文名称字母顺序排序。 1、A* 搜索算法——图形搜索算法,从给定起点到给定终点计算...

2019-02-21 14:57:00 379

转载 扫盲!为什么说 Storm 比 Hadoop 快?

storm的网络直传、内存计算,其时延必然比hadoop的通过hdfs传输低得多;当计算模型比较适合流式时,storm的流式处理,省去了批处理的收集数据的时间;因为storm是服务型的作业,也省去了作业调度的时延。所以从时延上来看,storm要快于hadoop。 ...

2019-02-20 21:21:00 101

转载 Hbase教程:通过BulkLoad快速将海量数据导入到Hbase

本文将针对这个问题介绍如何通过Hbase的BulkLoad方法来快速将海量数据导入到Hbase中。 在第一次建立Hbase表的时候,我们可能需要往里面一次性导入大量的初始化数据。我们很自然地想到将数据一条条插入到Hbase中,或者通过MR方式等。但是这些方式不是慢就是在导入的过程的占用Reg...

2019-02-18 22:09:00 612

转载 深度解析数据挖掘中的数据理解和预处理

很多人说,数据准备工作真是个“体力活”,耗时耗力不说,还异常的枯燥无味。建模之前的数据处理确实是平淡的,它往往不需要多高的智商,多牛的编程技巧,多么高大上的统计模型。但是,它却能时时触发你的兴奋点,因为它需要足够的耐心和细心,稍不留神就前功尽弃。在这次的内容里,我首先会从“数据理解”、“变量类...

2019-02-18 19:34:00 1833

转载 怎样用OpenStack构建Hadoop和Spark系统

OpenStack Sahara是个命令行工具,通过简化流程,跟踪复杂的细节,使Hadoop和 Spark的安装、部署变得更加简单。 OpenStack如何构建Hadoop和Spark系统 OpenStack是一种云操作系统,用于提供虚拟机,而OpenStack Sahara是一个附加...

2019-02-18 15:34:00 434

转载 深度学习硬件架构简述

深度学习具有极高的计算需求, 要对深度学习应用进行开发并商业化,就需要找到合适的硬件配置。目前,在开发用于深度学习应用的高效硬件平台这一领域,竞争十分激烈。这里将介绍具体的硬件要求,并讨论未来对深度学习硬件的展望。 深度学习在这十年,甚至是未来几十年内都有可能是最热门的话题。虽然深度学习已是...

2019-02-18 14:57:00 710

转载 深度解析大数据处理系统关键层次架构

在数据存储层,还有很多类似的系统和某些系统的变种,这里,仅仅列出较为出名的几个。 一、数据存储层 宽泛地讲,据对一致性(consistency)要求的强弱不同,分布式数据存储策略,可分为ACID和BASE两大阵营。 ACID是指数据库事务具有的四个特性:原子性(Atomicity)、...

2019-02-17 15:27:00 796

转载 利用数据仓库优化数据分析?

在整个数据分析流程中,数据处理的时间往往要占据70%以上!这个数字有没有让你震惊呢?为了提高分析效率和质量,借用数据仓库进行数据分析是一个很好的选择,详细的工作方法本文都有所介绍。 首先,我们来了解一下数据仓库吧!数据仓库是一个面向主题的、集成的、相对稳定的、反应历史变化的数据集合。那数据分...

2019-02-17 13:48:00 243

转载 搞大数据必知的处理框架技术,你的项目应该使用哪种?

大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。 这里将介绍大数据系统一个最基本的组件:处理框架。处理框架负责对系统中...

2019-02-17 09:57:00 295

转载 在大数据时代,传统的数据处理方法还适用吗?

大数据环境下的数据处理需求 大数据环境下数据来源非常丰富且数据类型多样,存储和分析挖掘的数据量庞大,对数据展现的要求较高,并且很看重数据处理的高效性和可用性。 传统数据处理方法的不足 传统的数据采集来源单一,且存储、管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库即可处理。...

2019-02-15 20:45:00 1708

转载 全面解析大数据框架的区别

简介 大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。 在之前的文章中,我们曾经介绍过有关大数据系统的常规概念、处理过程,...

2019-02-15 16:32:00 193

转载 Hadoop工具让数据仓库迁移更轻松

对于大数据管理和分析应用程序云服务,用户的关注度正不断增长,而为了应对这一趋势,供应商已经开始努力简化Hadoop的云部署流程,并试图降低云端Hadoop的购买价格。 如何简化Hadoop云部署 大数据和云计算现在对于Hadoop供应商和一些大数据技术公司来说,已经变得十分重要。这些公...

2019-02-15 14:56:00 101

转载 谈谈自己初学hadoop的心路历程

在学习hadoop之前,我就明确了要致力于大数据行业,成为优秀的大数据研发工程师的目标,有了大目标之后要分几步走,然后每一步不断细分,采用大事化小的方法去学习hadoop。下面开始叙述我是如何初学hadoop的。 hadoop Hadoop学习两步走:linux学习、hadoop学习。...

2019-02-14 15:33:00 120

转载 HBase最佳实践——读性能优化策略

任何系统都会有各种各样的问题,有些是系统本身设计问题,有些却是使用姿势问题。HBase也一样,在真实生产线上大家或多或少都会遇到很多问题,有些是HBase还需要完善的,有些是我们确实对它了解太少。总结起来,大家遇到的主要问题无非是Full GC异常导致宕机问题、RIT问题、写吞吐量太低以及读延...

2019-02-14 14:08:00 179

转载 在搞推荐系统之前,请先避免这几个问题

一、高估系统对用户需求的捕捉能力 我们都说,搜索引擎是满足用户主动需求的产品,而推荐系统则是满足用户隐含需求的产品。当用户明确需要什么信息,就把需求转化为检索词,丢到搜索引擎,搜索引擎帮用户找到它,而推荐系统则能良好的感知用户未明确陈述的需求,为其呈现信息。那么问题来了,既然推荐系统能够捕捉...

2019-02-13 20:41:00 133

转载 走进物联网的后台:解析大数据挖掘的方法与技术原理

长久以来,准确获知用户的需求和消费者对产品的满意度,以及竞争对手的规模与弹性,一直都是企业决策者想要却又似乎永远都无法彻底完成的任务。重要数据信息的缺失,使得企业运行很多时候都不得不流于盲人摸象。 互联网的发展,使得可被电子化检索的数据信息达到了天文数字。然而即便如此,人们离为全社会的各个角...

2019-02-13 16:42:00 451

转载 怎样选择合适的数据库性能工具?

数据库管理系统是现代应用程序的核心,保持数据库平稳顺畅运行是组织必须保证的底线。数据库性能工具可以帮助数据库管理员优化系统操作,避免或者预防性能问题。但是,在购买这些工具之前,DBA和IT经理们应该对评估不同产品要考虑的关键功能特性有明确的理解和认识。 选择合适的数据库性能工具 在构建...

2019-02-13 15:15:00 85

转载 搞大数据必知的大数据处理框架技术

这5种必知的大数据处理框架技术,你的项目到底应该使用其中的哪几种? 大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。本文将介绍大...

2019-01-31 11:58:00 273

转载 数据挖掘中最容易犯的几个错误,你知道吗?

按照Elder博士的总结,这10大易犯错误包括: 0. 缺乏数据(Lack Data) 1. 太关注训练(Focus on Training) 2. 只依赖一项技术(Rely on One Technique) 3. 提错了问题(Ask the Wrong Question) 4. ...

2019-01-31 10:30:00 266

转载 数据分析与挖掘该选哪一个?Python 还是R 语言?

Python和R在数据分析和数据挖掘方面都有比较专业和全面的模块,很多常用的功能,比如矩阵运算、向量运算等都有比较高级的用法。 什么是R语言? R语言,一种自由软件编程语言与操作环境,主要用于统计分析、绘图、数据挖掘。R本来是由来自新西兰奥克兰大学的罗斯·伊哈卡和罗伯特·杰特曼开发(也因此...

2019-01-30 11:17:00 197

转载 BAT大牛教你:怎样透彻的掌握一门机器学习算法

机器学习算法都是一个个复杂的体系,需要通过研究来理解。学习算法的静态描述是一个好的开始,但是这并不足以使我们理解算法的行为,我们需要在动态中来理解算法。 机器学习算法 机器学习算法的运行实验,会使你对于不同类型问题得出的实验结论,并对实验结论与算法参数两者的因果关系有一个直观认识。在这...

2019-01-29 14:32:00 95

转载 一篇文章教你选择合适的数据库性能工具?

数据库管理系统是现代应用程序的核心,保持数据库平稳顺畅运行是组织必须保证的底线。数据库性能工具可以帮助数据库管理员优化系统操作,避免或者预防性能问题。但是,在购买这些工具之前,DBA和IT经理们应该对评估不同产品要考虑的关键功能特性有明确的理解和认识。 ​ 选择合适的数据库性能工具 ...

2019-01-29 11:03:00 309

转载 在做推荐系统前,请先避免这几个问题

一、高估系统对用户需求的捕捉能力 我们都说,搜索引擎是满足用户主动需求的产品,而推荐系统则是满足用户隐含需求的产品。当用户明确需要什么信息,就把需求转化为检索词,丢到搜索引擎,搜索引擎帮用户找到它,而推荐系统则能良好的感知用户未明确陈述的需求,为其呈现信息。那么问题来了,既然推荐系统能够捕捉...

2019-01-28 20:54:00 370

转载 影响数据分析导致数据建模错误!你可能都没发觉的几个小细节

如果你有一个目标,想获得所有这些数据的可操作的见解,并一直在收集。那么,你如何确定模型的数据,以便实际上可以获得这些见解,并回答你的业务问题?你的计划。当规划阶段不充分或不完全,其结果是可怕的。那么分析和性能、数据完整性和安全性的问题接踵而至,将会使日常的维护和发展的成本达到了不必要的水平。 ...

2019-01-26 16:06:00 515

转载 数据挖掘其实就是为了干这四种事?

数据挖掘最重要的要素是分析人员的相关业务知识和思维模式。一般来说,数据挖掘主要侧重解决四类问题:分类、聚类、关联、预测。数据挖掘非常清晰的界定了它所能解决的几类问题。这是一个高度的归纳,数据挖掘的应用就是把这几类问题演绎的一个过程。 大数据分析人员的相关业务知识和思维模式 一、分类问题...

2019-01-24 16:10:00 98

转载 解析数据挖掘与数据分析的区别

数据分析(狭义)与数据挖掘的实质都是相同的,都是从数据里边发现关于事务的常识(有价值的信息),然后协助事务运营、改善产品以及协助企业做更好的决议计划。 从分析的进程来看,数据分析更偏重于统计学上面的一些办法,经过人的推理演译得到定论;数据挖掘更偏重由机器进行自学习,直接到得到定论。 从分...

2019-01-24 14:58:00 852

转载 2018年全国居民人均可支配收入28228元,作为程序员的你达到了吗?

国际在线报道:据国家统计局网站消息,据国家统计局1月21日消息,2018年,全国居民人均可支配收入28228元,比上年名义增长8.7%,扣除价格因素,实际增长6.5%。其中,城镇居民人均可支配收入39251元,增长(以下如无特别说明,均为同比名义增长)7.8%,扣除价格因素,实际增长5.6%;...

2019-01-23 16:49:00 180

转载 你知道最初的那项大数据技术是什么吗?

虽然Hadoop、Spark和NoSQL等数据库在市场上掀起更大的动静,搜索却是最初也是最有用的大数据技术之一。 面对每一种酷毙的新技术,人们很容易过于迷恋其中,开始把它用在不当的地方。比如说:从头到尾浏览数百亿条记录,从中找出几百万条标以一组标准的记录,这是MapReduce或你最喜欢实施...

2019-01-23 14:32:00 100

转载 为什么Python在金融,数据分析,和人工智能中应用广泛?

自从1991它出现在编程场景中,比于其他编程语言,Python取得了少有的地位。面向对象,容易学习,使用语法,以及由此产生的低维护成本,是Python持续获得好评的一部分原因。开源是一个很明显的优势,跨平台的有效性,多目标,垃圾回收(自动的),代码的简洁性,以及整齐的缩进是Python其他的显...

2019-01-22 16:27:00 633

转载 App背后的重要数据指标是什么你知道吗?

在统计应用推广或ASO效果时,我们通常会碰到很多数据指标,而这些数据指标的实际数值不仅可以显示出应用的性能好坏,还能帮我们找出运营过程中的不足。 接下来,就和大家分享一些非常重要的数据指标,希望能帮大家及时把控方向,获取最好的推广效果。   一、活跃用户数 活跃用户数是指在某统计周期内...

2019-01-22 14:42:00 289

转载 难以取舍的Python和R,到底学哪个?

对于想从事数据行业的人和数据工作者来说,是学习R还是python,哪个工具更实用一直被大家争论。Martijn Theuwissen,DataCamp的教育专家详细比较了这两个工具。 ython和R是统计学中两种最流行的的编程语言,R的功能性主要是统计学家在开发时考虑的(R具有强大的可视化功...

2019-01-21 19:42:00 183

转载 如何将Apache Spark用于不同类型的大数据分析用例

主要结论 了解如何将Apache Spark用于不同类型的大数据分析用例,例如批处理、互操作、图表、数据流分析,以及机器学习。 了解Spark Core及加载项库,包括Spark SQL、Spark Streaming、GraphX、Mllib和Spark ML。 了解开发者在...

2019-01-21 17:12:00 170

转载 六款强大的开源数据挖掘工具

在互联网发展到大数据时代,那么数据就等于金钱。随着向一个基于应用的领域过渡,数据则呈现出了指数级增长。然而,百分之八十的数据是非结构化的,因此它需要一个程序和方法来从中提取有用信息,并且将其转换为可理解、可用的结构化形式。 在数据挖掘过程中,有大量的工具可供使用,比如采用人工智能、机器学习,...

2019-01-21 15:59:00 1093

转载 数据仓库——维度建模十大原则

遵循这些原则进行维度建模可以保证数据粒度合理,模型灵活,能够适应未来的信息资源,违反这些原则你将会把用户弄糊涂,并且会遇到数据仓库障碍。 原则1、载入详细的原子数据到维度结构中 维度建模应该使用最基础的原子数据进行填充,以支持不可预知的来自用户查询的过滤和分组请求,用户通常不希望每次只看到...

2019-01-20 15:43:00 181

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除