排序:
默认
按更新时间
按访问量

R vs. Python,数据分析中谁与争锋?

R和Python两者谁更适合数据分析领域?在某些特定情况下谁会更有优势?还是一个天生在各方面都比另一个更好? 当我们想要选择一种编程语言进行数据分析时,相信大多数人都会想到R和Python——但是从这两个非常强大、灵活的数据分析语言中二选一是非常困难的。我承认我还没能从这两个数据科学家喜爱的...

2017-10-13 09:48:01

阅读数:693

评论数:0

Heron:Twitter的新一代流处理引擎

流计算又称实时计算,是继以Map-Reduce为代表的批处理之后的又一重要计算模型。随着互联网业务的发展以及数据规模的持续扩大,传统的批处理计算难以有效地对数据进行快速低延迟处理并返回结果。由于数据几乎处于不断增长的状态中,及时处理计算大批量数据成为了批处理计算的一大难题。在此背景之下,流计算应运...

2017-10-11 11:16:48

阅读数:673

评论数:0

JavaScript内存管理机制以及四种常见的内存泄漏解析

原文:How JavaScript works: memory management + how to handle 4 common memory leaks 作者:Alexander Zlatkov 译者:雁惊寒 【译者注】本文介绍了JavaScript在内存管理方面的工作原...

2017-10-08 08:33:31

阅读数:523

评论数:0

第五届CCF大数据与计算智能大赛决战巅峰,百万大奖汇聚海内外数据科学家

摘要:9月24日,第五届中国计算机学会(CCF)大数据与计算智能大赛(Big Data & Computing Intelligence Contest,简称“BDCI”)启动仪式在北京梅地亚中心酒店正式举办。 时下的大数据已进入以数据广泛关联、跨域融合和深度应用为特...

2017-09-30 11:09:11

阅读数:176

评论数:0

基于Hadoop大数据分析应用场景与实战

为了满足日益增长的业务变化,京东的京麦团队在京东大数据平台的基础上,采用了Hadoop等热门的开源大数据计算引擎,打造了一款为京东运营和产品提供决策性的数据类产品-北斗平台。一、Hadoop的应用业务分析大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具,而是涉及的业务...

2017-09-29 16:32:57

阅读数:1696

评论数:0

用R语言把数据玩出花样

R语言作为统计学一门语言,一直在小众领域闪耀着光芒。直到大数据的爆发,R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入,R语言的社区在迅速扩大成长。现在已不仅仅是统计领域,教育,银行,电商,互联网…都在使用R语言。要成为有理想的极客,我们不能停留在语法上,要掌握牢固...

2017-09-29 16:15:15

阅读数:626

评论数:0

中国程序员如何升职加薪,也许我们该学学印度人

近几年越来越多的印度人在美国硅谷占据要职,其中比较著名的有谷歌 CEO 桑德.皮查伊,微软 CEO 萨蒂亚.纳德拉,Adobe CEO 山塔努.纳拉延。 谷歌 CEO 桑德.皮查伊反观硅谷的华裔,虽然在数量上与印度裔相近,却不像印度人那样大量占据企业的中高层。你可以说因为印度人英语比较好,虽然他...

2017-09-20 17:28:22

阅读数:115

评论数:0

51个你需要知道的大数据术语

每天数十亿字节的数据收集下,了解大数据的复杂内涵非常重要。为了帮助你了解这一领域,我们从最近的大数据指南中编辑了一个列表,列出了最重要的相关术语和定义。你认为我们还应该添加哪些术语?请在评论中告诉我们。A 算法:给予AI、神经网络或其他机器的一组规则,以帮助其自己学习;分类、聚类、推荐和回归是四种...

2017-09-18 13:02:13

阅读数:444

评论数:0

MySQL主从同步那点事儿

关于mysql主从同步,相信大家都不陌生,随着系统应用访问量逐渐增大,单台数据库读写访问压力也随之增大,当读写访问达到一定瓶颈时,将数据库的读写效率骤然下降,甚至不可用;为了解决此类问题,通常会采用mysql集群,当主库宕机后,集群会自动将一个从库升级为主库,继续对外提供服务;那么主库和从库之间的...

2017-09-15 15:37:34

阅读数:194

评论数:0

云时代的必然选择,华为CloudFabric重新定义云数据中心网络

2017华为全联接大会HUAWEI CONNECT,华为重磅发布了CloudFabric解决方案,首次在数据中心领域提出面向应用场景的模型化组网概念,并发布面向高可用(High Availability)、超大规模(Hyperscale)、高性能计算(HPC,High Performance Co...

2017-09-13 09:01:46

阅读数:81

评论数:0

高吞吐消息网关的探索与思考

唯品会是一家立足于“全球精选,正品特卖”的电商网站,拥有4亿注册会员,日活约2千万会员。随着会员数量的增多,公司业务部门的飞速发展,和用户的沟通变得日益重要。沿用至今的消息网关,面对多变的业务和爆发式增长的消息面前,显得力不从心,多次大促出现性能瓶颈,急需重构来跟上公司业务发展的需要。唯品会消息网...

2017-09-11 10:26:49

阅读数:269

评论数:0

基于Mesos/Docker构建数据处理平台

本文深入介绍了去哪儿网利用Mesos和Docker构建私有云服务的全过程,分享了从无状态应用向有状态应用逐步过度的经验与心得。 平台概览2014年下半年左右,去哪儿完成了有关构建私有云服务的技术调研,并最终拍定了Docker/Mesos这一方案。下图1展示了去哪儿数据平台的整体架构: 图1...

2017-09-11 08:55:37

阅读数:500

评论数:0

KSQL,用于Apache Kafka的流数据SQL引擎

Apache Kafka是一个分布式的、分区的、多复本的日志提交服务,使用Scala编写,以可水平扩展和高吞吐率而被广泛使用。Kafka最初是由LinkedIn开发,并于2011年初开源,目标是为实时数据处理提供一个统一、高通量、低等待的平台。目前,越来越多的开源分布式处理系统如Cloudera、...

2017-09-01 15:39:28

阅读数:388

评论数:0

深入解析Spark中的RPC

作者:Neo,研究生毕业于清华大学,本科毕业于北京邮电大学,目前工作在Hulu,从事Big data相关领域的研发工作,曾经在百度Ecom和程序化广告混迹6年,从事系统研发和架构工作,关注大数据、Web后端技术、广告系统技术以及致力于编写高质量的代码。 原文载于知乎,感谢作者授权转载。...

2017-08-31 09:26:39

阅读数:778

评论数:0

工具推荐|程序员必须知道的11款新型编程工具

对于开发人员来说,工具是至关重要的。工具可以使开发人员的日常工作更加轻松、高效,因为只要关注最重要的事情即可。对于开发人员来说,想要寻找到更好的替代工具往往比坚持使用熟悉的、过时的工具要困难得多。在这篇文章中,我们将列出你可以在日常工作中使用的一些新的编程工具。对在线流媒体感兴趣的许多开发人员也已...

2017-08-30 16:17:45

阅读数:201

评论数:0

开发者必读的十大经典书籍

编者按:人生如逆水行舟,不进则退。开发者想要保持自身的竞争力,做到所向披靡,知识储备必不可缺。这就意味着,简单的代码阅读远远不够。 快速迭代的信息社会,技术前进的速度远超人类历史上的任何时期,技术攫取呈现出碎片化的特征,开发者更倾向于通过网络搜素寻求问答。然而,这种浅尝辄止的阅读方式,会给人...

2017-08-25 15:11:55

阅读数:1211

评论数:0

五个小技巧告诉你如何保护MySQL数据仓库

汇总各种来源的数据,可以创建一个中央仓库。通过分析和汇总业务数据报告,数据仓库能够帮助企业做出明智、战略性的决策分析。虽然数据仓库提供了许多便利,但是把这些敏感数据收集到一个单独系统,会给数据仓库带来安全问题。如果选择使用数据仓库,企业需要考虑如何更好地保护内部信息系统。任何数仓安全方面的妥协都会...

2017-08-23 17:16:20

阅读数:62

评论数:0

12个数据科学家秒懂的瞬间

所谓数据科学家就是比软件工程师更擅长统计学,比统计学家更擅长软件工程的人。–Josh Wills, Cloudera毫无疑问,数据科学是如今职场上最受追捧的技能之一。CNBC的一篇文章在综合考虑就业机会、薪水中位数、体力工作强度、工作压力等因素后,将“数据科学家”评选为2017年最受欢迎的10大职...

2017-08-22 08:43:35

阅读数:87

评论数:0

京东如何处理数据中心网络对应用性能的影响

​随着现代数据中心规模的不断扩张,网络拓扑和路由转发变得越来越复杂。传统的数据中心使用大型机和小型机,网络规模相对较小,普通的机框式交换机就能满足网络的需求。随着CLOS集群架构的普及,标准的x86服务器集群以低成本和高扩展性逐渐取代大型机和小型机而成为数据中心的主流。下图就是一个典型的基于CLO...

2017-08-18 16:15:21

阅读数:35

评论数:0

Apache Flink 技术解读之分布式运行时环境

本文基于 Apache Flink 1.3 版本官方文档翻译。 任务与运算符链接在实际的分布式计算环境中,Flink 会将多个运算子任务链接到分布式计算任务中。每个线程执行一个计算任务。将运算符链接到计算任务中对于系统性能的提升有很大的帮助:它降低了线程间切换与缓冲的开销,并且在降低延时的同...

2017-08-17 13:45:24

阅读数:188

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭