linghujing-CSDN博客

原创 BigData：值得了解的十大数据发展趋势

当今，世界无时无刻不在发生着变化。对于技术领域而言，普遍存在的一个巨大变化就是为大数据(Big data)打开了大门，并应用大数据技相关技术来改善各行业的业务并促进经济的发展。目前，大数据的作用已经上升到一定程度，对于小型或大型公司而言，从所收集的数据中提取出有用的信息已被是非常宝贵的。此外，大数据帮助那些在使世界变得更美好的且负有重要责任的组织能够更好地完成工作。在早期，大数...

2018-09-25 18:05:01 516

原创 TalkingData林逸飞：以数据智能探索业务突破企业需正视数字化三大短板

在9月召开的以“突破”为主题的T11 2018暨TalkingData数据智能峰会上，TalkingData合伙人兼执行副总裁林逸飞发表了“以数据智能探索业务突破”的精彩分享。他着重介绍了TalkingData(简称TD)在零售领域的探索，并总结提出了“D2D数字化转型方法论”，强调从业务“数字化”到目标结果“数字化”的核心思维，并以整合合作伙伴与TalkingData自研的全...

2018-09-25 18:02:27 694

原创使用Scala开发Apache Kafka的TOP 20大好用实践

本文作者是一位软件工程师，他对20位开发人员和数据科学家使用Apache Kafka的方式进行了最大限度得深入研究，最终将生产实践环节需要注意的问题总结为本文所列的20条建议。Apache Kafka是一个广受欢迎的分布式流媒体平台，New Relic、Uber以及Square等数千家公司都在使用它构建可扩展、高吞吐量、可靠的实时流媒体系统。例如，New Relic的Kafka...

2018-09-09 16:02:11 505

原创数据可视化过程不完全指南

数据集犹如世界历史状态的快照，能帮助我们捕捉不断变化的事物，而数据可视化则是将复杂数据以简单的形式展示给用户的良好手段(或媒介)。结合个人书中所学与实际工作所学，对数据可视化过程做了一些总结形成本文供各位看客"消遣"。个人以为数据可视化服务商业分析的经典过程可浓缩为：从业务与数据出发，经过数据分析与可视化形成报告，再跟踪业务调整回到业务，是个经典闭环。如果你想了解大数据的学习路线，想...

2018-09-08 18:05:24 591

转载做大数据分析时，这几个技巧可以带来帮助

现在数据已经成为了一些企业的“天”。近年来，近年来越来越多的公司已经意识到数据分析可以带来的价值，并且已经跳上了大数据旅行车。实际上，现在所有的一切都在被监控和测量，创造了大量的数据流，通常比公司可以处理的速度更快。问题是，根据定义，大数据很大，因此数据收集中的小差异或错误可能导致重大问题，错误信息和不准确的推论。对于大数据而言，以业务为中心的方式分析它的挑战是实现这一目标的唯一方法...

2018-09-08 18:03:34 364

原创收藏 | 数据分析师最常用的10个机器学习算法！

在机器学习领域，有种说法叫做“世上没有免费的午餐”，简而言之，它是指没有任何一种算法能在每个问题上都能有最好的效果，这个理论在监督学习方面体现得尤为重要。举个例子来说，你不能说神经网络永远比决策树好，反之亦然。模型运行被许多因素左右，例如数据集的大小和结构。因此，你应该根据你的问题尝试许多不同的算法，同时使用数据测试集来评估性能并选出最优项。当然，你尝试的算法必须和你的问题相切合...

2018-09-07 15:36:40 303

原创如何使用HBase？大数据存储的两个实战场景

为何使用HBaseHBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，适用于结构化的存储，底层依赖于Hadoop的HDFS，利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群。因此HBase被广泛使用在大数据存储的解决方案中。HBase的优点：- 列可以动态增加，并且列为空就不存储数据，节省存储空间。 - Hbase自动切分数据，使...

2018-09-07 15:27:03 482

原创入行数据科学，这些书一定要看

近日，在GitHub上看到一张大而全的数据科学书单图，该图片分成七大领域，各自都有相对应的推荐书单，本文就为为各位推荐几本书，希望能够有助于你在大数据方面的学习。大数据已经成为这个时代的标志，如何理解和运用大数据，也是我们这个时代的重中之重。因此选择一本合适的数据科学书至关重要。近日，在GitHub上看到一张大而全的数据科学书单图，该图片分成七大领域，各自都有相对应的推荐书...

2018-09-06 17:18:36 1803 1

原创 Kaggle放大招：简单几步实现海量数据分析及可视化

近期，Kaggle发布了新的数据分析及可视化工具——Kaggle Kerneler bot，用户只需上传数据集，便可用Python为用户自动获取相关的深度数据分析结果。本文将带领读者体验一下这款便捷而又高效的工具。Kaggle Kerneler bot是一个自动生成的kernel，其中包含了演示如何读取数据以及分析工作的starter代码。用户可以进入任意一个已经发布的项目，点...

2018-08-11 17:27:48 768

原创对Spark的那些【魔改】

前言这两年做 streamingpro 时，不可避免的需要对Spark做大量的增强。就如同我之前吐槽的，Spark大量使用了new进行对象的创建，导致里面的实现基本没有办法进行替换。比如SparkEnv里有个属性叫closureSerializer，是专门做任务的序列化反序列化的，当然也负责对函数闭包的序列化反序列化。我们看看内部是怎么实现的： val seri...

2018-08-11 17:24:48 846

原创数据分析或成释放制造业IoT价值的关键所在

曾有专家预测，2020年对制造商来说是重要的一年。此前有数据机构预测马来西亚、越南和印度尼西亚将首次跻身制造业竞争力前 15 强的国家或地区行列，紧随中国、日本、印度、韩国和新加坡，而瑞典或瑞士这样的老牌西方国家将被挤出前 15 强。但要实现这一点，亚太地区的制造商需要抓住物联网带来的机遇。接下来，我们将共同了解一下IoT的业务价值，以及制造商如何从中获益。新兴的制造业预计将成为未来...

2018-08-11 17:17:52 469

原创实时数据平台设计：解决从OLTP到OLAP实时流转缺失

本文将会分上下两篇对一个重要且常见的大数据基础设施平台展开讨论，即“实时数据平台”。在上篇设计篇中，我们首先从两个维度介绍实时数据平台：从现代数仓架构角度看待实时数据平台，从典型数据处理角度看待实时数据处理;接着我们会探讨实时数据平台整体设计架构、对具体问题的考量以及解决思路。在下篇技术篇中，我们会进一步给出实时数据平台的技术选型和相关组件介绍，并探讨不同模式适用哪些应用场景。希望通过...

2018-08-04 21:29:59 1628

原创对比解读五种主流大数据架构的数据分析能力

数据分析工作虽然隐藏在业务系统背后，但是具有非常重要的作用，数据分析的结果对决策、对业务发展有着举足轻重的作用。随着大数据技术的发展，数据挖掘、数据探索等专有名词的曝光度越来越高，但是在类似于Hadoop系列的大数据分析系统大行其道之前，数据分析工作已经历了长足的发展，尤其是以BI系统为主的数据分析，已经有了非常成熟和稳定的技术方案和生态系统，对于BI系统来说，大概的架构图如下：...

2018-08-04 20:30:48 7070 2

原创如何让你的数据直觉更敏锐

AlphaGo打败李世乭、南京大学设立人工智能学院、百度无人车批量生产....每当人工智能和机器学习取得一些进展时，这些进展一定占据着各大媒体的头版头条。媒体对其有如此高的关注度，这意味着，现在科技界主流的兴趣领域是数据科学。对于有大局意识的人来说，这无疑是一个很好的创业机会和职业选择。要想抓住职业机会，你需要超强的“码力”和深入的专业知识。如果你想了解大数据的学习...

2018-08-01 22:51:33 440

原创干货：数据分析师的完整流程与知识结构体系

【编者注】一个完整的数据分析流程，应该包括以下几个方面，建议收藏此图仔细阅读。完整的数据分析流程：业务建模。经验分析。数据准备。数据处理。数据分析与展现。专业报告。持续验证与跟踪。作为数据分析师，无论最初的职业定位方向是技术还是业务，最终发到一定阶段后都会承担数据管理的角色。因此，一个具有较高层次的数据分析师需要具备完整的知识结构。如果你想了解大数...

2018-08-01 22:41:33 1271

原创图文教程，8步教你变身数据科学家

导读：数据科学家是干什么的呢?哪些地方需要数据科学家?怎么样才能成为数据科学家?如果你正因为这些问题而犹豫要不要开始学习数据科学，那么我可以告诉你，成为数据科学家其实非常简单。从行业内部的蓬勃发展，到招聘会上HR们的大声宣传，我们都可以看出，数据科学家已经成为当下最炙手可热的职业之一。行业专业人士分析，未来几年数据科学岗位缺口将达到数百万。不仅仅是顶级科技公司需要数据科学家...

2018-08-01 22:07:46 322

原创使用Pandas&NumPy进行数据清洗的6大常用方法

数据科学家花了大量的时间清洗数据集，并将这些数据转换为他们可以处理的格式。事实上，很多数据科学家声称开始获取和清洗数据的工作量要占整个工作的80%。因此，如果你正巧也在这个领域中，或者计划进入这个领域，那么处理这些杂乱不规则数据是非常重要的，这些杂乱数据包括一些缺失值，不连续格式，错误记录，或者是没有意义的异常值。在这个教程中，我们将利用Python的 Pandas 和 Nump...

2018-07-28 17:27:26 4013

原创使用Numpy和Opencv完成图像的基本数据分析（Part II）

本文主要介绍使用Numpy和Opencv完成图像的基本数据分析后续部分，主要包含逻辑运算符操作、掩膜以及卫星图像数据分析等操作。在上一节中，主要是介绍了图像的基本知识以及OpenCV的基本操作，具体内容参见“使用Numpy和Opencv完成基本图像的数据分析（Part I）”。这部分内容是接着上一节的内容，主要介绍一些其它的操作。使用逻辑操作处理像素值可以使用逻辑运算符创建相同大...

2018-07-28 17:17:40 639

原创使用Numpy和Opencv完成基本图像的数据分析（Part I）

对于深度学习而言，很多任务都是与数字图形处理打交道。这类任务的数据集一般是由很多张图像构成，有时候，当原始图像不能直接送入模型中时，需要对其进行一定的预处理操作，这时候就不得不向大家介绍一个十分有用的软件包OpenCV，用它处理图像起来非常方便，OpenCV是一个基于BSD许可发行的跨平台计算机视觉库，它轻量且高效，是由一系列C函数和少量C++类构成，支持Python、MATLAB...

2018-07-28 17:12:00 1032

原创让传达更有效！7个提升数据可视化的实用技巧

今天的文章不长，但是干货还是不少的。对于数据可视化，我觉得在设计原理上其实是相通的，都是为了更好的传达信息。所以，同样的，关注核心信息，剔除信息杂质，就能使数据表信息的传达更有效。良好的数据可视化就是清晰，有效地传达信息，而不会分散用户注意力。本文将会介绍一些小细节，帮助你做好数据可视化。1. 避免使用鲜艳的颜色明亮鲜艳的颜色就像是把所有的字母都大写想要强调一样，你的听众...

2018-07-26 18:26:15 586 1

原创想成为优秀大数据开发工程师必须学习和掌握的技能，才能立于不败

当我们在会谈这个问题时，无非就是想寻求一种途径的演示，可以辅佐对大数据开发工程师成心向的知友创造一些可以自创的经历。适值，100offer在前段时辰接触到Talking Data的研发副总裁闫志涛，并约请他就大数据工程师若何实现手艺成上停止Live分享。闫志涛就他从物理系本科到大数据工程师的生长过程与我们停止分享，在此清算成回覆，分享与列位知友，希望对一些有志于成为大数据开发工程师的知友...

2018-07-26 17:58:02 313

原创 Spark性能优化：开发调优篇

1、前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内)，最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算...

2018-07-26 17:32:39 250

原创数据掩埋——在大数据时代里悄然遁走

数据掩埋（英语：Data burial），又译为资料隐匿、数据隐藏。它是反数据库知识发现（英语：Anti-Knowledge-Discovery in Databases，简称：Anti-KDD)中的一个步骤。数据掩埋一般是指在无法删除或隔离需要保护的数据时，通过算法或充入大量干扰数据使得关键信息得以隐藏的过程。数据掩埋通常与计算机科学有关，并通过统计不清、在线分析搁置、情报失察、...

2018-07-24 16:28:24 637

原创大数据时代，如何防止“数据裸奔”？

社交娱乐、资讯阅读、网络购物、旅游攻略、美食烹饪、健身跑步、讲座课程……在智能手机加载不同种类的APP应用后，人们的生活开始变得方便快捷、多姿多彩。然而，大数据、云计算、人工智能等新技术的运用，在充分发挥数据价值的同时，也给个人隐私保护带来严峻挑战，数据产业的发展和个人信息安全之间出现了失衡。隐私or便利互联网上的“透明人”“中国人更加开放，对隐私问题没有那么敏感，很多...

2018-07-24 16:24:05 604

原创大数据下的用户与价值分析

大数据下，用户分析的核心是什么? ——解决实际问题确定用户分析目的，具体是为了降低成本?增加收入?优化用户体验?提升营销效果?用户针对性管理?确定目的后开始选择合适的数据，然后搭建模型，最后得出结果，并用数据可视化解读。大数据时代，用户数据使用成为企业发展的重中之重。RFM方法是国际上最成熟、最为接受的客户价值分析方法，RFM实际上是一整套分析方法中的部分内容，但最...

2018-07-24 16:20:49 3628

原创当大数据满足数据可视化时，如何使数据变得可操作

如今，数据科学家可以使用数据可视化来使他们的信息更具可操作性插图、图表、图表和电子表格可以把枯燥的报告变成有启发性的内容，更容易收集洞察力和可操作的结果。幸运的是，现代技术(从笔记本电脑到智能手机)拥有各种可用应用程序，使可视化变得前所未有的简单。因此，社会越来越熟悉数据可视化及其对数据分析和可操作性的有益影响。描述各种数据的最佳方法分析的力量很大程度上取决于数据的...

2018-07-24 14:39:16 3139

原创大数据最核心的价值是什么？

我把大数据的核心价值理解为核心商业价值。 “很多人还没搞清楚什么是PC互联网，移动互联网来了，我们还没搞清楚移动互联的时候，大数据时代又来了。”——马云卸任演讲本文尝试从三大产业的角度将大数据的核心商业价值分类讨论。首先例举一些大数据的典型应用，然后解释大数据的定义，最后总结大数据的价值。我们知道：第一次工业革命以煤炭为基础，蒸汽机和印刷术为...

2018-07-23 14:33:58 14995

原创企业如何使用大数据对搜索引擎进行优化

在这个日新月异的时代，技术在不断进步与发展，我们迎来了大数据时代、毫无疑问，大数据正在对这个对世界的运作方式带来改变。大数据在影响营销的同时，还影响人们日常活动的方式。从字面上去理解，大数据是大量数据的收集和分类。虽然，这些数据本身并不产生价值，但是对这些信息的分析应用会产生极高的价值。有许多公司开始专注于大数据，其中包括谷歌和其他搜索引擎，而搜索引擎优化的大数据正在对网络世界产生重大...

2018-07-23 13:53:51 1727

原创你是如何被“大数据”洗脑的？

正文开始之前，请大家先看一个案例：一家公司希望了解自家产品的用户画像，于是他们在产品包装上印上自家小程序的二维码，然后想办法促使用户去扫码(比如扫码查真伪、扫码学习食用方法等)。一旦用户扫描二维码，公司就能从后台了解他们的基本信息，比如下图就是对用户年龄分布的统计结果：(PS，出于保密需要，这里暂且放一张P过的图来示意) 现在请问：哪个年龄段的人才是该产品的典型用户?...

2018-07-23 10:32:04 484

原创数据科学中的陷阱：定性变量的处理

定性变量，也就是表示类别的变量，比如性别、省份等。对于这类变量，不能在模型里直接使用它们，因为定性变量之间的数学计算是毫无意义的。另一方面，定性变量是一类很常见的变量，通常带着很有价值的信息。因此，这篇文章就将讨论如何正确地在模型里使用定性变量。对于定性变量，常见的处理方法有两种：一种是将定性变量转换为多个虚拟变量，另一种对将有序的定性变量转换为定量变量。一、虚拟变量正如前文中讨论...

2018-07-21 06:37:38 9587

原创超级干货：一文总览数据科学全景：定律、算法、问题类型...

Pradeep Menon是一位在大数据，数据科学，数据架构领域拥有丰富经验以及影响力的专家。这是他今年所撰写的简述数据科学系列文章中的第一篇，主要介绍数据科学中的基本定律、常用算法以及问题类型，读者可以从中一窥数据科学的全景。2016年，英国数学家，乐购俱乐部构架师Clive Humbly提出“数据是新能源”这样一个说法。他说：“数据是新能源。它拥有极高的价值，却需要经过提炼...

2018-07-21 06:29:39 599

原创大数据的核心：云技术和BI

关于大数据和云计算的关系人们通常会有误解。而且也会把它们混起来说，分别做一句话直白解释就是：云计算就是硬件资源的虚拟化;大数据就是海量数据的高效处理。如果做一个更形象的解释，云计算相当于我们的计算机和操作系统，将大量的硬件资源虚拟化之后再进行分配使用;大数据则相当于海量数据的“数据库”。整体来看，未来的趋势是，云计算作为计算资源的底层，支撑着上层的大数据处理，而大数据的发展趋势是，实时交...

2018-07-20 22:05:57 1536

原创大数据入门之Hadoop基础学习

前言回归第一篇，目前人工智能和大数据火热，使用的场景也越来越广，日常开发中前端同学也逐渐接触了更多与大数据相关的开发需求。因此对大数据知识也有必要进行一些学习理解基础概念大数据的本质一、数据的存储：分布式文件系统(分布式存储)二、数据的计算：分部署计算基础知识学习大数据需要具备Java知识基础及Linux知识基础学习路线(1)Java基础和Li...

2018-07-20 22:03:56 283

原创数据仓库和Hadoop大数据平台有什么差别？

广义上来说，Hadoop大数据平台也可以看做是新一代的数据仓库系统，它也具有很多现代数据仓库的特征，也被企业所广泛使用。因为MPP架构的可扩展性，基于MPP的数据仓库系统有时候也被划分到大数据平台类产品。但是数据仓库和Hadoop平台还是有很多显著的不同。针对不同的使用场景其发挥的作用和给用户带来的体验也不经相同。用户可以根据下表简单判断什么场景更适合用什么样的产品。 ...

2018-07-07 17:56:00 12174

在各色数据库系统百花齐放的今天，能让大家铭记的，往往是一个数据库所能带给大家的差异化能力。正如梁宁老师的产品思维课程中所讲到的，这是一个数据库系统所能带给产品使用者的"确定性"。差异化能力通常需要从数据库底层开始构筑，而数据存储方式显得至关重要，因为它直接关乎数据写入与读取的效率。在一个系统中，这两方面的能力需要进行很好的权衡：如果设计有利于数据的快速写入，可能意味着查询时需要需要花费较大的精力去...

2018-07-07 17:50:26 612

原创数据科学正从这七个方向颠覆金融界

我们准备了一份数据科学案例清单，这几个案例已经在金融领域内产生了巨大影响。它们涵盖了从数据管理到交易策略等各个不同的业务方面，拥有广泛的前景。大数据文摘出品编译：浩哥儿、笪洁琼、夏雅薇近年来，数据科学和机器学习在应对金融领域诸多任务的处理能力已经成为大家关注的焦点。公司希望知道新技术能够为公司带来什么改进以及它们如何重塑公司的经营策略。我们准备了一份数据科学案例清单，这几个案例已经在金融领域内产生...

2018-07-06 15:15:01 389

原创企业如何使用大数据对搜索引擎进行优化

在这个日新月异的时代，技术在不断进步与发展，我们迎来了大数据时代、毫无疑问，大数据正在对这个对世界的运作方式带来改变。大数据在影响营销的同时，还影响人们日常活动的方式。从字面上去理解，大数据是大量数据的收集和分类。虽然，这些数据本身并不产生价值，但是对这些信息的分析应用会产生极高的价值。有许多公司开始专注于大数据，其中包括谷歌和其他搜索引擎，而搜索引擎优化的大数据正在对网络世界产生重大影响。那么企...

2018-07-06 15:09:55 981

原创三类可以让大数据发挥价值的途径

近年来，大数据概念越来越热门，大数据日渐应用于生活中，部分企业把大数据提升到战略层面，而关于大数据的讨论也越来越热烈。而关于大数据工作的开展是技术驱动还是业务需求驱动的争论一直都有，其实这种争论没有太大意义，让大数据发挥出应有的价值才是目标所向。如果非要说点什么，可以这样看：对于已经有明确商业价值模式的领域，技术驱动的成分更浓，比如搜索、互联网广告、推荐系统等;而对于商业价值模式模糊，甚至根本没有...

2018-07-06 15:01:15 428

原创小企业开始采用大数据的4个步骤

过去几年，越来越多的小企业采用大数据技术，但许多企业仍然没有完全了解它的工作原理。使用大数据，并通过各种平台和分析它们可以帮助发现趋势和模式，并最终促进更高效的业务运营以及更好的决策。针对小型企业的大数据是优化其业务成功的绝佳选择。任何行业都可以从数据收集和分析中受益，但在一段时间后，仍然很难获得准确的信息。对于中小企业(SMBS)来说，其价格难以承受，并且内部IT将分析成功转化为洞见仅限于跨国公...

2018-07-05 18:06:32 1254

原创企业想要成功布局大数据的七大关键步骤

在这个大数据已经成为市场一个美味的“大蛋糕”的今日，大多数企业都很想要分得一块。大多数企业正做好了布局大数据的准备，那么，该怎么做才能成功去布局?最近，电子科技大学教授，云基地大数据实验室合伙人周涛在接受采访时提出，对于普通企业要通过修炼成为大数据企业，关键要做好7个步骤：1.要实现数据化。企业要为此做好计划，到底需要保存什么样的数据，以人为中心的数据还是以产品为中心，还是更关注企业运营，需要...

2018-07-05 18:00:13 308

空空如也

空空如也