刚是程序员的博客

专注大数据,数据科学,机器学习

Python 与 Javascript 之比较

最近由于工作的需要开始开发一些Python的东西,由于之前一直在使用Javascript,所以会不自觉的使用一些Javascript的概念,语法什么的,经常掉到坑里。我觉得对于从Javascript转到Python,有必要总结一下它们之间的差异。 基本概念 Python和Javascript都...

2017-06-29 10:49:01

阅读数:211

评论数:0

使用开源软件快速搭建数据分析平台

最近,国内涌现出了不少数据分析平台产品,例如魔镜和数据观。 这些产品的目标应该都是self service的BI,利用可视化提供数据探索的功能,并且加入机器学习和预测的功能。它们对标的产品应该是Tableau或者SAP Lumira。因为笔者曾经为Lumira开发数据可视化的功能,对这一块很感兴...

2017-06-29 10:34:33

阅读数:457

评论数:0

容器集群管理平台的比较

容器化和微服务是当前最热话题,不久之前,笔者(据说因为现在都不用笔了,“笔者”的称谓已经不合适了,因为输入用键盘,叫“键人”更为合适)参加QCon上海一个微服务监控的Session,场面爆棚,我不得不在拥挤的过道听完了整个session。随着要管理的容器越来越多,容器的集群管理平台成为了刚需! D...

2017-06-28 11:23:25

阅读数:485

评论数:0

大数据搜索选开源还是商业软件?ElasticSearch 对比 Splunk

本文就架构,功能,产品线,概念等方面就ElasticSearch和Splunk做了一下全方位的对比,希望能够大家在制定大数据搜索方案的时候有所帮助。 简介 ElasticSearch (1)(2)是一个基于Lucene的开源搜索服务。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTfu...

2017-06-28 11:17:43

阅读数:1573

评论数:0

程序员量子力学-海森堡式BUG

今天在阅读《The Pragmatic Programmer》的时候发现书中提到了Heisenbug让我想起来了多年以前在开发中碰到的一个海森堡式的BUG。 海森堡是德国著名的物理学家,量子力学的创始人之一,“哥本哈根学派”的代表人物。 如果大家对这段历史或者物理原理不清楚的话,推荐大...

2017-06-30 09:59:40

阅读数:586

评论数:0

用编程的思路模拟解决脑筋急转弯问题

前些日子看了可汗学院的这个关于诚实人和说谎者的脑筋急转弯问题,我觉得如果能用程序来模拟,那一定很有趣。 这个题目是这样的,有两扇门,一扇通往天堂,一扇通往地狱,你要做出选择打开那扇门。门口各有一个人,他们都知道门后面的情况,其中一个总是说实话,而另一个总是撒谎。你可以问他们问题。要怎样问问题...

2017-06-30 09:58:35

阅读数:181

评论数:0

用可视化来讲故事

在科学松鼠会的网站上有一篇漫画,来自imgur.com,讲述了 科学理论是如何建立的 我用到d3.js把这个静态的图改成了动态效果,代码可见github See the Pen Occam's Razor cn by gangtao (@gangtao) on CodePen. 注:这...

2017-06-30 09:57:50

阅读数:145

评论数:0

数据可视化中的视觉属性

Stephan Few 是数据可视化领域里面数一数二的专家,他的几本书《Show Me The Numbers》,《Information Dashboard Design》和《Now You See It》都是非常优秀的关于数据可视化的书。 Stephan Few 和 Tablea...

2017-06-30 09:57:01

阅读数:181

评论数:0

软件中的质量属性(一)

开发高质量的软件是一件极具挑战的工作。其中一个重要的原因就是对于“质量”的定义各不相同,变化莫测。 杰拉尔德温伯格在他的四部曲巨作《质量软件管理》的第一卷第一章中就谈到了什么是质量以及质量的重要性。温伯格在书中讲了一个很有趣的故事。某软件企业每年都会根据所开发软件的质量对开发团队进行奖励,质量好...

2017-06-30 09:55:59

阅读数:1421

评论数:0

软件中的质量属性(二)

现在我们接着上一次的话题来看看其它的质量属性。 互操作性 (Interoperability) 互操作性指的是系统内或者系统之间不同的组件可以有效地进行信息交换,通常是以服务(Service)的形式来进行的。互操作性的关键因素包括通信协议,接口定义,数据格式的定义等等,而标准化是实现互操作性的...

2017-06-30 09:46:41

阅读数:1302

评论数:0

神奇的阿基米德螺线

今天在读数学史,正巧读到阿基米德螺线,于是写了一段js代码,生成螺线。更多的有趣内容请参考这篇文章 代码如下(需要jquery和d3): HTML CSS body { background-color:#000000; } JS functio...

2017-06-30 09:45:11

阅读数:735

评论数:0

使用Python抓取欧洲足球联赛数据

背景 Web Scraping 在大数据时代,一切都要用数据来说话,大数据处理的过程一般需要经过以下的几个步骤 数据的采集和获取 数据的清洗,抽取,变形和装载 数据的分析,探索和预测 数据的展现 其中首先要做的就是获取数据,并提炼出有效地数据,为下一步的分析做...

2017-06-30 09:44:20

阅读数:1271

评论数:0

用Python做单变量数据集的异常点分析

大数据时代,数据的异常分析被广泛的用于各个场合。 今天我们就来看一看其中的一种场景,对于单变量数据集的异常检测。 所谓单变量,就是指数据集中只有一个变化的值,下面我们来看看今天我们要分析的的数据,点击这里数据文件下载数据文件。 分析数据的第一步是要加载文件, 本文使用了numpy,pandas...

2017-06-30 09:39:11

阅读数:331

评论数:0

在Mac OS X上构建wget来抓取静态网站内容

我们的目标是在Mac OS上获取一个静态服务器的内容,通常用wget是一个很好的选择。 wget是一个命令行工具用于从网络服务器来获取内容。但是在Mac OS X(Mountain Lion/ Mavericks / Snow Leopard)上没有提供该工具,但是有curl。 wget VS...

2017-06-30 09:38:00

阅读数:278

评论数:0

在ipython notebook中调用ggplot的三种不同的方法

在大数据时代,数据可视化是一个非常热门的话题。各个BI的厂商无不在数据可视化领域里投入大量的精力。Tableau凭借其强大的数据可视化的功能成为硅谷炙手可热的上市公司。Tableau的数据可视化的产品,其理论基础其实是《The Grammar of Graphic》,该书提出了对信息可视化的图表的...

2017-06-30 09:37:03

阅读数:156

评论数:0

利用Splunk做应用程序的性能分析

在我们的开发过程中,经常会需要对我们开发的程序做性能分析,有很多性能分析的工具,很多语言都提供了不同的profiling工具,这些工具很有用,提供了程序运行的原始记录数据,通过对这些数据的分析,可以得到程序运行的性能状况,找到问题所在。然而,这样的工具手机的数据比较原始,往往还需要一些更进一步的分...

2017-06-30 09:35:56

阅读数:690

评论数:0

用HTML5构建一个流程图绘制工具

在我们的开发工程中经常会使用到各种图,所谓的图就是由节点和节点之间的连接所形成的系统,数学上专门有一个分支叫图论(Graph Theroy)。利用图我们可以做很多工具,比如思维导图,流程图,状态机,组织架构图,等等。今天我要做的是用开源的HTML5工具来快速构造一个做图的工具。 工具选择 工预...

2017-06-30 09:34:48

阅读数:1459

评论数:0

使用sphinx快速生成Python API 文档

不管是开源还是闭源,文档都是很重要的。当然理论上说,最好的文档就是代码本身,但是要让所有人都能读懂你的代码这太难了。所以我们要写文档。大部分情况,我们不希望维护一份代码再加上一份文档,这样做很容易造成文档和代码的不一致,程序员最讨厌更新文档了。所以最佳实践就是在程序员代码中加注释,然后通过构建脚本...

2017-06-30 09:34:01

阅读数:685

评论数:0

Python 并行分布式框架之 Celery

Celery (芹菜)是基于Python开发的分布式任务队列。它支持使用任务队列的方式在分布的机器/进程/线程上执行任务调度。 架构设计 Celery的架构由三部分组成,消息中间件(message broker),任务执行单元(worker)和任务执行结果存储(task result st...

2017-06-30 09:33:17

阅读数:1057

评论数:0

用Python抓取亚马逊云(AWS)的日志(CloudTrail)数据

如今是云的时代,许多公司都把自己的IT架构部署在基础架构云(IaaS)上。著名的IaaS提供商有亚马逊,微软(Azure),IBM等,国内也有诸如阿里云等。这里亚马逊毫无疑问是该市场的领军者。 AWS提供了非常多的服务,领先了竞争对手一大截。并且AWS提供非常丰富的API,其API基于Rest,...

2017-06-29 17:07:15

阅读数:1054

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭