漠北墨杯-CSDN博客

原创第十篇论文读后总结-GiniClust(基尼聚类)

GiniClust: detecting rare cell types from single-cell geneexpression data with Gini index基尼聚类：用基尼指数侦测单细胞基因表达数据中的罕见细胞类型Lan Jiang1,2,3, Huidong Chen1,2,4, LucaPinello1,2 and Guo-Cheng Yuan1,2,5Jia

2017-11-21 17:03:25 1464

原创第九篇论文读后总结-相似森林

Similarity Forests相似森林Saket Sathe IBM T. J. Watson Research Center YorktownHeights, NY 10598Charu C. Aggarwal IBM T. J. Watson Research Center Yorktown Heights, NY 10598 KDD’17, August 13

2017-11-17 13:05:05 613

原创第八篇论文读后总结-使用合成梯度的解耦神经接口

Decoupled Neural Interfaces using Synthetic Gradients使用合成梯度的解耦神经接口。Max Jaderberg 1 Wojciech Marian Czarnecki 1 Simon Osindero 1 Oriol Vinyals 1 Alex Graves 1 David Silver 1 Koray Kavukcuoglu1

2017-11-17 12:59:23 1047

原创肿瘤异质性：精准医学需要解决的难题

肿瘤异质性：精准医学需破解的难题涂超峰1, 2) 綦鹏2) 李夏雨3) 莫勇真2) 李小玲1, 2, 3)熊炜1, 2, 3) 曾朝阳1, 2, 3)**李桂源1, 2, 3)** 发表于：生物化学与生物物理进展Progress in Biochemistry and Biophysics 2015, 42(10): 881~890 一．本文讲了什么问题肿瘤异质性是指同

2017-11-07 11:49:43 2681

原创局部高阶图聚类

KDD 2017 Research Paper KDD’17, August 13–17, 2017,Halifax, NS, CanadaLocal Higher-Order Graph Clustering局部高阶图聚类Hao Yin Stanford University yinh@stanford.eduAustinR. Benson

2017-11-07 11:42:45 2882 1

原创单细胞测序技术及应用进展

单细胞测序技术及应用进展作者：朱忠旭陈新发表于：基因组学与应用生物学，2015 年，第34 卷，第5 期，第902-908 页本文讲了什么？细胞是生命的单位，然而大多数的人类基因组、癌症或其它研究仍然是通过从多个细胞中抽提DNA 来进行测序，这忽略了细胞间的差异对于控制基因表达、细胞行为的影响，实验结果往往表示的是细胞群体中信号表达的均值，或者只代表其中在数量上占优势

2017-10-24 16:55:46 3987

原创癌症基因组遗传和表观遗传数据整合分析

癌症基因组遗传和表观遗传数据整合分析作者：董华单位：复旦大学一．本文讲了什么问题？癌症是由一系列遗传变异和环境干扰的复杂交互作用引起的，但过去的研究很少关注遗传变异、基因表达和microRNA的变化是怎样整合形成网络一起作用并最终导致一系列复杂表型例如脑瘤的发生；因为整合各种类型的数据、揭示癌症发生的机制仍然是一个难

2017-10-24 16:50:04 920

原创基于基因组数据的癌症亚型发现聚类研究

基于基因组数据的癌症亚型发现聚类研究作者：许桃胜本文讲了什么问题？当今全球社会癌症频发，严重威胁着人类的生存质量；不仅癌症的种类越来越多，每一种癌症也衍生出很多亚型，导致我们很难去找到一种根治癌症的方法。例如一种针对肺癌的药物色瑞替尼胶囊，它仅对1%左右的肺癌有很好的效果，因为它仅针对ALK基因突变，但实际统计中只有3%-5%的肺癌患者是由ALK基因突变引起的，也就是说色瑞替尼胶

2017-10-24 16:45:10 2618

原创面向组学大数据的生物信息学研究

面向组学大数据的生物信息学研究作者：杨帅一．本文讲了什么？本文主要讲了如何在生物信息学中利用组合大数据，因为我们有着庞大组学数据却不能好好利用。组学大数据：组学主要包括基因组学，蛋白组学，代谢组学，转录组学，脂类组学，免疫组学，糖组学和 RNA组学等。各组学就是研究他们各自以及它们之间的关系，例如基因组学这门学科就是研究这些基因以及这些基因间的关系。组学大数据就是这些组学在生

2017-10-24 16:40:25 6218

原创具有贝叶斯数据重构的鲁棒概率建模

RobustProbabilistic Modeling with Bayesian Data Reweighting具有贝叶斯数据重构的鲁棒概率建模Yixin Wang 1 Alp Kucukelbir 1 David M. Blei 一. 本文讲了什么问题？概率建模是一种发现数据中潜在规律的重要方法，概率模型通过一组假设来分析数据，但倘若数据偏离了假设就会给我们的推断

2017-10-23 18:22:39 484

原创周志华机器学习读后总结第14、15、16章

概率图模型什么是概率图模型概率图模型是一类用图来表达变量相关关系的概率模型。概率图模型可大致分为两类：第一类是使用有向无环图表示变量间的依赖关系，称为有向图模型或贝叶斯网；第二类是使用无向图表示变量间的相关关系，称为无向图模型或马尔可夫网。隐马尔可夫模型隐马尔科夫模型是结构最简单的动态贝叶斯网，是一种著名的有向图模型。隐马尔科夫模型中的变量可分为两组：第一组是状态变量，第二组

2017-10-23 17:58:47 1871

原创周志华机器学习读后总结第12、13章

计算学习理论什么是计算学习理论计算学习理论是关于机器学习的理论基础，其目的是分析学习任务的困难本质，为学习算法提供理论保证，并根据分析结果指导算法设计。泛化误差和经验误差是计算学习理论的两个重要概念，现实中我们常用经验误差作为泛化误差的近拟。 PAC学习PAC学习即概率近似正确学习理论，给定训练集，我们希望基于学习算法学得的模型所对应的假设尽可能接近目标概念。PAC辨识：对

2017-10-23 17:56:27 2146

原创周志华机器学习读后总结第10、11章

降维与度量学习什么是降维学习降维是一种分类算法，它是一种解决维数灾难的重要途径。例如二维数据经过投影变为一维数据从而更好的表征数据的特征，然后再进行识别；这就利用了降维的方法。 K邻近学习k近邻学习是一种监督学习算法，它给定测试样本，基于某种距离度量找出与训练集最靠近的k个训练样本，然后基于这k个邻居信息来进行预测。K邻近学习方法有投票法（通常在分类任务中使用，判别方法是选

2017-10-21 22:53:45 1397

原创周志华机器学习读后总结第八、九章

集成学习什么是集成学习集成学习的结构是先产生一组个体学习器，再用某种策略将他们结合起来，它通过构建并结合多个学习器来完成学习任务。即集成学习是使用一系列学习器进行学习，并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。一个好的集成需要个体学习器有一定的准确性和多样性。一些集成学习方法集成学习方法可以分为两大类：1.个体学习器间存在强

2017-10-21 22:48:18 638

原创周志华机器学习读后总结第六、七章

支持向量机什么是支持向量机？综合书中介绍可总结：支持向量机是一个训练样本集中划分超平面的算法，而划分超平面能把样本集中不同类别的样本分开，也就是说支持向量机是一个区分样本类别的模型。支持向量机的一个重要性质是训练完成后，大部分的训练样本都不需要保留，最终模型仅与支持向量有关。划分超平面的线性描述方程为W^T+b=0,样本空间中距离超平面最近的几个训练样本点被称为支持向量，两个异类支持向

2017-10-21 22:45:59 1441

原创周志华机器学习读后总结第四、五章

决策树算法什么是决策树？顾名思义，决策树是基于树结构来进行决策的，它从给定训练数据集学得一个模型用以对新示例进行分类。一棵决策树包含一个根结点，若干内部结点和若干叶子结点。叶结点对应于决策结果，其他每个结点则对应于一个属性测试；每个结点包含的样本集合根据属性测试的结果被划分到子结点中；根结点包含样本全集，从根结点到每个叶结点的路径对应了一个判定测试序列。决策树学习的目的是为了产生一棵泛化能

2017-10-21 22:42:31 815

原创周志华机器学习读后总结第三章

线性模型基本形式线性模型试图学得一个通过属性的线性组合来进行预测的函数，即f(x)=w1x1+w2x2+…+wdxd+b,w和b学得之后，模型就得以确定，而w直观表达了各属性在预测中的重要性。线性回归线性回归试图学得一个线性模型以尽可能准确的预测实值输出标记。线性回归试图学得f(xi)=wxi+b,使得f(xi)约等于yi。要确定w和b,关键在于如何衡量f(x)与y之间

2017-10-21 22:39:14 636

原创周志华机器学习读后总结第二章

经验误差与过拟合本章主要讲的是如何对我们通过数据训练而成的模型进行评估与选择，自然会逐一介绍很多评估选择的方法，但在此之前我们先需要了解一些概念。错误率：如果m个样本中有a个样本分类错误，则错误率是a/m。精度：精度就是1-a/m. 误差：模型的预计输出与样本的真实输出之间的差异。训练误差：模型在训练集上的误差。

2017-10-21 22:32:59 872

原创周志华机器学习读后总结第一章

第一章什么是机器学习？学习机器学习的第一步就是先要了解什么是机器学习，在没有碰周志华老师的这本机器学习的书之前，我没有接触到过关于机器学习的知识，我所认为的机器学习就是让一些机器像学生一样去学习知识然后做事情！而周志华老师在书中说：机器学习研究如何通过计算的手段，利用经验（数据）来改善系统自身的性能；因此机器学习所研究的主要内容是在计算机中从数据中产生“模型”的算法，即“学习算

2017-10-21 22:20:29 725