数据科学
文章平均质量分 77
刚是程序员
https://www.linkedin.com/in/taogang/
展开
-
用可视化来讲故事
在科学松鼠会的网站上有一篇漫画,来自imgur.com,讲述了 科学理论是如何建立的我用到d3.js把这个静态的图改成了动态效果,代码可见githubSee the Pen Occam's Razor cn by gangtao (@gangtao) onCodePen.注:这个其实主要就是奥卡姆剃刀原理,“若无必要,勿增实体”。附原图 :原创 2017-06-30 09:57:50 · 541 阅读 · 1 评论 -
图解机器学习
警告:多图杀猫!每当提到机器学习,大家总是被其中的各种各样的算法和方法搞晕,觉得无从下手。确实,机器学习的各种套路确实不少,但是如果掌握了正确的路径和方法,其实还是有迹可循的,这里我推荐SAS的Li Hui的这篇博客,讲述了如何选择机器学习的各种方法。另外,Scikit-learn 也提供了一幅清晰的路线图给大家选择:其实机器学习的基本算法都很简单,下面我们就利用二维数据和交互原创 2017-09-28 17:01:57 · 1866 阅读 · 0 评论 -
使用开源软件快速搭建数据分析平台
最近,国内涌现出了不少数据分析平台产品,例如魔镜和数据观。这些产品的目标应该都是self service的BI,利用可视化提供数据探索的功能,并且加入机器学习和预测的功能。它们对标的产品应该是Tableau或者SAP Lumira。因为笔者曾经为Lumira开发数据可视化的功能,对这一块很感兴趣,于是就试用了一下这些产品,感觉这些产品似乎还有很大的差距,于是就想自己用开源软件搭一个简单的数据分原创 2017-06-29 10:34:33 · 4278 阅读 · 2 评论 -
开源中国用户分析
加入开源中国也有超过三年的时间了,觉得开源中国已经越办越好了,突然很想知道它究竟有多好,我是不是开源中国最老的用户,我有176个开源中国的积分能够排名第几,带着这些问题,我抓取了部分开源中国的用户信息,做了一个简单的分析。数据获取要获得用户数据,可以通过开源中国的网页来进行。这个是我的主页面这个页面包含了用户的基本信息,包括用户名,积分,粉丝,关注等等。点击粉丝链接可以获得所有原创 2017-06-29 10:51:20 · 360 阅读 · 0 评论 -
用JS实现简单的神经网络算法
笔者尝试用JavaScript实现最简单的神经网络算法。神经网络简介神经网络试图模拟大脑的神经元之间的关系来处理信息。它的计算模型通常需要大量彼此连接的节点。每个神经元通过某种特殊的输出函数来处理来自其它相邻神经元的加权输入值。神经元之间的信息传递的强度,用所谓的加权值来定义,算法会不断的调整加权值来实现自我的学习过程。神经网络分为多层,如上图,有输入层,隐藏层和输出层。J原创 2017-06-29 10:57:24 · 2304 阅读 · 0 评论 -
Spark 机器学习实践 :Iris数据集的分类
今天试用了一下Spark的机器学习,体验如下:第一步,导入数据我们使用Iris数据集,做一个分类,首先要把csv文件导入。这里用到了spark的csv包,不明白为什么这么常见的功能不是内置的,还需要额外加载。--packages com.databricks:spark-csv_2.11:1.4.0from pyspark.sql import SQLContextsqlCo原创 2017-06-29 16:58:34 · 2811 阅读 · 5 评论 -
在云上的机器学习
随着大数据日新月异的飞速发展,机器学习也变的越来越性感。云和大数据是天生的一对,那么云上的机器学习又是什么样呢?我们今天就来看看几个基于云的机器学习平台:亚马逊,微软和bigml亚马逊机器学习我们先来看看云的领军人物亚马逊的机器学习平台 Amazon Machine Learning首先,要是用亚马逊的机器学习,你需要有一个AWS的账号(废话)。在Analytics服务区域你会找到原创 2017-06-29 17:00:45 · 1553 阅读 · 0 评论 -
用Python做单变量数据集的异常点分析
大数据时代,数据的异常分析被广泛的用于各个场合。 今天我们就来看一看其中的一种场景,对于单变量数据集的异常检测。所谓单变量,就是指数据集中只有一个变化的值,下面我们来看看今天我们要分析的的数据,点击这里数据文件下载数据文件。分析数据的第一步是要加载文件, 本文使用了numpy,pandas,scikit learn等常见的数据分析要用到的Python库。import numpy a原创 2017-06-30 09:39:11 · 1970 阅读 · 0 评论 -
使用Python抓取欧洲足球联赛数据
背景Web Scraping在大数据时代,一切都要用数据来说话,大数据处理的过程一般需要经过以下的几个步骤数据的采集和获取数据的清洗,抽取,变形和装载数据的分析,探索和预测数据的展现其中首先要做的就是获取数据,并提炼出有效地数据,为下一步的分析做好准备。数据的来源多种多样,以为我本身是足球爱好者,而世界杯就要来了,所以我就想提取欧洲联赛的数据原创 2017-06-30 09:44:20 · 5892 阅读 · 1 评论 -
用Python实现一个大数据搜索引擎
搜索是大数据领域里常见的需求。Splunk和ELK分别是该领域在非开源和开源领域里的领导者。本文利用很少的Python代码实现了一个基本的数据搜索功能,试图让大家理解大数据搜索的基本原理。布隆过滤器 (Bloom Filter)第一步我们先要实现一个布隆过滤器。布隆过滤器是大数据领域的一个常见算法,它的目的是过滤掉那些不是目标的元素。也就是说如果一个要搜索的词并不存在与我的数据中,那么原创 2017-11-28 09:10:37 · 742 阅读 · 0 评论