刚是程序员的博客

专注大数据,数据科学,机器学习

排序:
默认
按更新时间
按访问量

Python 与 Javascript 之比较

最近由于工作的需要开始开发一些Python的东西,由于之前一直在使用Javascript,所以会不自觉的使用一些Javascript的概念,语法什么的,经常掉到坑里。我觉得对于从Javascript转到Python,有必要总结一下它们之间的差异。 基本概念 Python和Javascript都...

2017-06-29 10:49:01

阅读数:215

评论数:0

使用开源软件快速搭建数据分析平台

最近,国内涌现出了不少数据分析平台产品,例如魔镜和数据观。 这些产品的目标应该都是self service的BI,利用可视化提供数据探索的功能,并且加入机器学习和预测的功能。它们对标的产品应该是Tableau或者SAP Lumira。因为笔者曾经为Lumira开发数据可视化的功能,对这一块很感兴...

2017-06-29 10:34:33

阅读数:457

评论数:0

容器集群管理平台的比较

容器化和微服务是当前最热话题,不久之前,笔者(据说因为现在都不用笔了,“笔者”的称谓已经不合适了,因为输入用键盘,叫“键人”更为合适)参加QCon上海一个微服务监控的Session,场面爆棚,我不得不在拥挤的过道听完了整个session。随着要管理的容器越来越多,容器的集群管理平台成为了刚需! D...

2017-06-28 11:23:25

阅读数:489

评论数:0

大数据搜索选开源还是商业软件?ElasticSearch 对比 Splunk

本文就架构,功能,产品线,概念等方面就ElasticSearch和Splunk做了一下全方位的对比,希望能够大家在制定大数据搜索方案的时候有所帮助。 简介 ElasticSearch (1)(2)是一个基于Lucene的开源搜索服务。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTfu...

2017-06-28 11:17:43

阅读数:1593

评论数:0

使用Heapster和Splunk监控Kubernetes运行性能

Kubernetes已经成为容器编排的事实上的王者,连Docker都已经向K8s女王大人低头。对于Kubernetes的cluster的数据收集和监控已经成为IT运维的一个重要话题。我们今天来看一看如何利用Splunk最新的Metircs Store来对Kubernetes的集群进行性能监控。部署...

2018-01-18 03:31:01

阅读数:499

评论数:0

用Python实现一个大数据搜索引擎

搜索是大数据领域里常见的需求。Splunk和ELK分别是该领域在非开源和开源领域里的领导者。本文利用很少的Python代码实现了一个基本的数据搜索功能,试图让大家理解大数据搜索的基本原理。 布隆过滤器 (Bloom Filter) 第一步我们先要实现一个布隆过滤器。 布隆过滤器是大数据领域的...

2017-11-28 09:10:37

阅读数:186

评论数:0

图解机器学习

警告:多图杀猫! 每当提到机器学习,大家总是被其中的各种各样的算法和方法搞晕,觉得无从下手。确实,机器学习的各种套路确实不少,但是如果掌握了正确的路径和方法,其实还是有迹可循的,这里我推荐SAS的Li Hui的这篇博客,讲述了如何选择机器学习的各种方法。 另外,Scikit-learn 也...

2017-09-28 17:01:57

阅读数:927

评论数:0

把代码执行演示嵌在你的PPT中

“Talk is cheap, show me your code!” 当一个程序员在做技术分享的时候, 代码演示经常是不可或缺的一个环节。然而在你的演示PPT和代码运行之间切换是一件非常恼人事情,而且非常影响演示的节奏和流畅性。要做一个完美的技术分享,能不能把代码的运行嵌入到PPT中呢? 当然可...

2017-09-07 09:43:11

阅读数:2046

评论数:0

程序员量子力学-海森堡式BUG

今天在阅读《The Pragmatic Programmer》的时候发现书中提到了Heisenbug让我想起来了多年以前在开发中碰到的一个海森堡式的BUG。 海森堡是德国著名的物理学家,量子力学的创始人之一,“哥本哈根学派”的代表人物。 如果大家对这段历史或者物理原理不清楚的话,推荐大...

2017-06-30 09:59:40

阅读数:594

评论数:0

用编程的思路模拟解决脑筋急转弯问题

前些日子看了可汗学院的这个关于诚实人和说谎者的脑筋急转弯问题,我觉得如果能用程序来模拟,那一定很有趣。 这个题目是这样的,有两扇门,一扇通往天堂,一扇通往地狱,你要做出选择打开那扇门。门口各有一个人,他们都知道门后面的情况,其中一个总是说实话,而另一个总是撒谎。你可以问他们问题。要怎样问问题...

2017-06-30 09:58:35

阅读数:187

评论数:0

用可视化来讲故事

在科学松鼠会的网站上有一篇漫画,来自imgur.com,讲述了 科学理论是如何建立的 我用到d3.js把这个静态的图改成了动态效果,代码可见github See the Pen Occam's Razor cn by gangtao (@gangtao) on CodePen. 注:这...

2017-06-30 09:57:50

阅读数:147

评论数:0

数据可视化中的视觉属性

Stephan Few 是数据可视化领域里面数一数二的专家,他的几本书《Show Me The Numbers》,《Information Dashboard Design》和《Now You See It》都是非常优秀的关于数据可视化的书。 Stephan Few 和 Tablea...

2017-06-30 09:57:01

阅读数:181

评论数:0

软件中的质量属性(一)

开发高质量的软件是一件极具挑战的工作。其中一个重要的原因就是对于“质量”的定义各不相同,变化莫测。 杰拉尔德温伯格在他的四部曲巨作《质量软件管理》的第一卷第一章中就谈到了什么是质量以及质量的重要性。温伯格在书中讲了一个很有趣的故事。某软件企业每年都会根据所开发软件的质量对开发团队进行奖励,质量好...

2017-06-30 09:55:59

阅读数:1473

评论数:0

软件中的质量属性(二)

现在我们接着上一次的话题来看看其它的质量属性。 互操作性 (Interoperability) 互操作性指的是系统内或者系统之间不同的组件可以有效地进行信息交换,通常是以服务(Service)的形式来进行的。互操作性的关键因素包括通信协议,接口定义,数据格式的定义等等,而标准化是实现互操作性的...

2017-06-30 09:46:41

阅读数:1310

评论数:0

神奇的阿基米德螺线

今天在读数学史,正巧读到阿基米德螺线,于是写了一段js代码,生成螺线。更多的有趣内容请参考这篇文章 代码如下(需要jquery和d3): HTML CSS body { background-color:#000000; } JS functio...

2017-06-30 09:45:11

阅读数:761

评论数:0

使用Python抓取欧洲足球联赛数据

背景 Web Scraping 在大数据时代,一切都要用数据来说话,大数据处理的过程一般需要经过以下的几个步骤 数据的采集和获取 数据的清洗,抽取,变形和装载 数据的分析,探索和预测 数据的展现 其中首先要做的就是获取数据,并提炼出有效地数据,为下一步的分析做...

2017-06-30 09:44:20

阅读数:1288

评论数:0

用Python做单变量数据集的异常点分析

大数据时代,数据的异常分析被广泛的用于各个场合。 今天我们就来看一看其中的一种场景,对于单变量数据集的异常检测。 所谓单变量,就是指数据集中只有一个变化的值,下面我们来看看今天我们要分析的的数据,点击这里数据文件下载数据文件。 分析数据的第一步是要加载文件, 本文使用了numpy,pandas...

2017-06-30 09:39:11

阅读数:345

评论数:0

在Mac OS X上构建wget来抓取静态网站内容

我们的目标是在Mac OS上获取一个静态服务器的内容,通常用wget是一个很好的选择。 wget是一个命令行工具用于从网络服务器来获取内容。但是在Mac OS X(Mountain Lion/ Mavericks / Snow Leopard)上没有提供该工具,但是有curl。 wget VS...

2017-06-30 09:38:00

阅读数:282

评论数:0

在ipython notebook中调用ggplot的三种不同的方法

在大数据时代,数据可视化是一个非常热门的话题。各个BI的厂商无不在数据可视化领域里投入大量的精力。Tableau凭借其强大的数据可视化的功能成为硅谷炙手可热的上市公司。Tableau的数据可视化的产品,其理论基础其实是《The Grammar of Graphic》,该书提出了对信息可视化的图表的...

2017-06-30 09:37:03

阅读数:156

评论数:0

利用Splunk做应用程序的性能分析

在我们的开发过程中,经常会需要对我们开发的程序做性能分析,有很多性能分析的工具,很多语言都提供了不同的profiling工具,这些工具很有用,提供了程序运行的原始记录数据,通过对这些数据的分析,可以得到程序运行的性能状况,找到问题所在。然而,这样的工具手机的数据比较原始,往往还需要一些更进一步的分...

2017-06-30 09:35:56

阅读数:701

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭