用SQL进行多值列拆分成二值列的一个实现

在进行数据分析的时候,往往需要把数据表格中的多值列拆分成二值列。如图1中的表A所示,fruits为一个多值列,值可以是不同的水果名字,表明某个以ID作为标识的人吃水果的记录。现在的需求是要把是否吃了什么具体水果拆成多个列,最终如表B所示。在这个例子中,吃水果的记录还有重复,所以需要把重复的记录去掉...

2017-09-26 11:02:46

阅读数 2167

评论数 0

Highcharts中更新series的5种方法

用Highcharts画图时,经常需要更新所画的图表,最常见的就是改变数据以更新图表。在Highcarts中,数据对应的参数是series。这儿就以图1的柱状图为例,列举如何更新series的4种方法,以供参考。源代码可从这儿访问。 图1 1. series.update Highcarts图...

2017-06-20 17:34:20

阅读数 19263

评论数 0

在Macbook Pro上安装支持GPU的TensorFlow

上一篇博文《在Macbook Pro上为TensorFlow设置GPU》中,我们已经为Macbook上的NVIDIA显卡安装了各种驱动,保证各种深度学习框架能够使用GPU进行计算。这儿就总结一下在后续安装TensorFlow的过程中遇到的问题。按照TensorFlow官网的说明,考虑到Macboo...

2017-06-15 15:54:33

阅读数 12086

评论数 3

在Macbook Pro上为TensorFlow设置GPU

最近忽然发现自己的Macbook Pro上装有一块额外的NVIDIA GeForce GT 750M显卡,于是蠢蠢欲动想装一个TensorFlow,试试在GPU上跑算法的性能。 先进入TensorFlow官网的Mac安装页面,发现要先装一堆NVIDIA的软件,于是进入NVIDIA文档页面。 为了安...

2017-06-14 16:11:16

阅读数 13828

评论数 2

再论HTML散点图(Scatter Plot)的SVG实现方式

介绍 在上一篇《HTML散点图(Scatter Plot)的三种不同实现方式性能比较》中,重点比较了散点图的SVG实现方式和HTML5 Canvas实现方式的不同。这儿再详细看看使用SVG,预先生成节点和实时加载数据之间的区别。 这儿为了在性能上有所比较,因此将散点数目增加到250,000...

2017-06-13 17:04:06

阅读数 865

评论数 0

HTML散点图(Scatter Plot)的三种不同实现方式性能比较

介绍 相对于其他图表类型而言,散点图往往会接收大数据做为输入,而需要同时显示上万甚至上百万的数据点在图上。对于基于HTML的散点图来说,其性能无疑是一个非常重要的考虑因素。 下面就对比一下3种不同的散点图实现,来看看其性能如何。实现的源码可在这儿下载。为了有可比性,这儿的散点图都是在一个500*5...

2017-06-09 17:48:49

阅读数 6384

评论数 0

当pandas.Series存在混合类型index的时候取子集出错的处理

问题描述 当创建一个pandas.Series对象,并且设置其index既包含数字型,也包含字符串型时,后续的取子集操作在某些情况下会出错。 样例代码 se = pd.Series([1,2], index=[123456789,'1234569']) se[[123456789,'1234...

2017-02-08 17:28:30

阅读数 669

评论数 0

高维数据探索 (High-Dimensional Data Exploration)

在医学领域做数据分析,经常把数据先整理成一张大宽表,然后再进行诸如疾病风险预测之类的建模。这张大宽表每行代表一个患者(case)的数据,而且通常会包含非常多列,每列对应某一种数据(feature)比如患者基本信息、诊断、检查结果等。这样的数据如果有非常多的行和列,则可以被称作是高维数据(High-...

2017-01-03 14:35:52

阅读数 1871

评论数 0

预测未来 -- 大数据,机器学习与临床医学

最近发在新英格兰医学杂志上的一篇观点文章。对于大数据和机器学习技术在临床医学上的应用做了简短的总结和展望。这儿转载的是英文版。需要中文版的话可以登录:http://www.nejmqianyan.cn/article/YXQYoa1606181?from=timeline&isappins...

2016-11-22 16:04:03

阅读数 1964

评论数 2

关于因果关系的一点思考

从开始接触临床研究的方法论到现在,非常深刻的一个印象就是临床研究注重因果关系(Causality)的验证。比如设计一个随机对照试验(RCT)验证某种干预(药物、手术等)对某个临床结局的关系。所采用的主要方法就是控制所有对结局可能有影响的因素,(理论上)只让关心的干预方式在人群中有变异,并观察最终的...

2016-11-06 10:12:05

阅读数 1574

评论数 1

A Tour of Machine Learning Algorithms

最近和做临床研究的大夫交流,他提出一个问题:所谓大数据分析的底层方法论是否适合用于临床研究?众所周知,临床研究目前主要采用的是流行病学的方法论,而底层基础数学理论是统计学。现在大数据分析方法中,主要部分是机器学习、模式识别等。我们知道,机器学习整合了大量统计学的方法,也有很多新的方法。但是,两个学...

2016-11-04 16:28:08

阅读数 911

评论数 0

回归分析:预测 VS 因果分析

在学习或者使用机器学习的方法时,回归分析可以说是最常用的一种方法了。今天朋友推荐Dr. Paul Allison的一篇博文,讲回归分析最常用的两种方式:预测和因果分析。觉得对医学信息学里面对回归分析的使用有很大的帮助,于是拜读了一下。下面是对于其中主要观点的总结。Dr. Allison是统计学方...

2016-10-27 09:40:47

阅读数 3969

评论数 0

统计学和机器学习之间的区别

最近做医学数据分析的结果展现,提到了两个问题:1. 机器学习方法相比较传统统计学方法而言,能产生什么新的结果?2.这些新的结果能不能用统计学理论来解释? 于是简单Google了一下。很不幸,没有找到专门针对医学分析的,倒是发现一篇博客,讲统计学与机器学习、数据科学的区别。个人觉得挺有道理的。摘录主...

2016-10-26 06:59:47

阅读数 4540

评论数 0

D3.js用动画渲染数据集的显示

介绍 数据统计和数据分析离不开数据集。之前几篇博客(用D3.js进行医疗数据可视化 (一)折线图 (Line Chart) 等)基于的是国家卫生和计划生育委员会统计信息中心的数据,可以说是已经经过了加工,提炼总结出来的数据。而本文涉及的是原始数据集。如果按医疗数据来说,可以是电子病历数据,个人健康...

2016-07-22 18:30:44

阅读数 2268

评论数 0

贝叶斯理论——一种由表及里的方法

贝叶斯理论介绍     贝叶斯理论说,你如果观察到了一个现象, 表象 我来告诉你由这个现象出发寻找真象的方法。 P(真象|表象) 不管这个真象存不存在, P(真象) 不管这个现象大家以前见没见过, P(表象) 也不管有没人知道什么样的真象会导...

2016-03-25 17:18:19

阅读数 807

评论数 0

变化多端 – 多种纯CSS的HTML表格设计

介绍 在HTML中,Table节点由于其层层嵌套的节点结构,一度名声很臭,且一度被呼吁用DIV+CSS取而代之。但在实际项目开发中,一碰到规整的数据显示,不知不觉又会用起它。可见其生命力之顽强。 这儿就探讨下几种不同的通过CSS实现的Table设计 。通过JavaScript渲染的效果不在此文讨...

2015-08-03 20:00:47

阅读数 22894

评论数 0

用D3.js进行医疗数据可视化 (五) 饼图 (Pie Chart)

介绍 经过一系列对折线图的试验,这儿就来尝试一下用饼图(Pie Chart)来做医疗数据的可视化。在《用D3.js进行医疗数据可视化 (四) 堆积区图(Stacked Area Chart)》的图2中,我们见识了每种医疗机构每月院均诊疗人次数(人次)的比较。其实对于一组数据间的比较,用饼图是非常适...

2015-08-03 17:05:10

阅读数 4812

评论数 1

用Apache CouchDB存储医疗可视化数据

介绍 之前花了些时间探讨用D3.js做医疗数据的可视化,所用的数据来自国家卫生和计划生育委员会统计信息中心网站。简便起见,相关的数据做成JSON格式,并存在了本地JSON文件中。对于短期试验性开发,对数据的存储并没有太多要求。但随着时间流逝,我也想能用比较“正式”的方法来存储相应的数据,也就是采用...

2015-07-29 22:26:59

阅读数 3511

评论数 0

用D3.js进行医疗数据可视化 (四) 堆积区图 (Stacked Area Chart)

介绍 在之前的文章《用D3.js进行医疗数据可视化 (一)折线图》中,我们可以看到对于所可视化的医疗卫生机构诊疗人次数线图,最下部的几条线几乎重合在一起,而且几种机构类型相互包含,关系比较混乱。因此在这篇文章我,我们尝试一下用堆积区图(stackedarea chart)来强调它们之间的对比。  ...

2015-07-23 21:56:03

阅读数 4170

评论数 1

用D3.js进行医疗数据可视化 (三)坐标轴 (Axes)

介绍 这这篇文章中,我们来尝试一下改进坐标轴的呈现方式。所有的代码都是在之前使用D3.js进行医疗数据可视化的一些实践 (二)中的代码基础上改的。因此这儿只把相应改动的代码贴出来。   任务一:让X轴的刻度以及相应的网格按月分布,并将刻度值改成中文 可视化效果   代码 var xAxis = d...

2015-07-22 20:34:52

阅读数 5641

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭