机器学习_joshuasea的博客-CSDN博客

机器学习

关注

文章平均质量分 73

关注数：文章数：36 文章阅读量：46935 文章收藏量：112

作者: joshuasea

这个作者很懒，什么都没留下…

展开

JAVA笔记

What：JAVA分为三个版本： Java SE：Standard Edition Java EE：Enterprise Edition Java ME：Micro Edition ┌───────────────────────────┐│Java EE ││ ┌────────────────────┐ ...

原创 2019-07-15 15:35:43 · 142 阅读 · 0 评论
ProteinSecondaryStructure-CNN阅读笔记

Introduction蛋白质是通过肽键连接在一起的氨基酸链。由于氨基酸的许多可能组合和链沿着链的多个位置的旋转，这种链的许多构象是可能的。正是这些构象变化导致蛋白质三维结构的差异。蛋白质结构预测是生物信息学和理论化学追求的最重要目标之一; 它在医学（例如，药物设计）和生物技术（例如，设计新型酶）中非常重要。[1]当我们谈论蛋白质的结构时，提到了四种不同的结构水平：初级，次级，...

原创 2018-09-27 21:31:19 · 1866 阅读 · 1 评论
Protein Secondary Structure Prediction with Long Short Term Memory Networks论文阅读笔记

Abstract 从氨基酸序列预测蛋白质二级结构是经典的生物信息学问题。常用方法使用前馈神经网络或SVM与滑动窗口相结合，因为这些模型不能自然地处理顺序数据。递归神经网络是前馈神经网络的概括，其自然地处理顺序数据。我们使用具有长短期记忆细胞的双向递归神经网络来预测二级结构并使用CB513数据集进行评估。在二级结构8级问题上，我们报告的性能（0.674）比现有技术（0.6...

原创 2018-09-27 11:02:17 · 505 阅读 · 0 评论
Protein Secondary Structure Prediction Using Cascaded Convolutional and Recurrent Neural Networks笔记

利用级联卷积和递归神经网络预测蛋白质二级结构 Abstract 蛋白质二级结构预测是生物信息学中的一个重要问题。受近期深度神经网络成功的启发，在本文中，我们提出了一种端到端深度网络，可以从集成的局部和全局上下文特征预测蛋白质二级结构。我们的深层架构利用具有不同内核大小的卷积神经网络来提取多尺度的本地上下文特征。此外，考虑到氨基酸序列中存在的长程依赖性，我们建立了一个双向神经...

原创 2018-10-02 11:04:04 · 1670 阅读 · 1 评论
On the prediction of DNA-binding proteins only from primary sequences: A deep learning approach论文笔记

Abstract DNA结合蛋白在真核和原核蛋白质组的选择性剪接，RNA编辑，甲基化和许多其他生物学功能中发挥关键作用。从一级氨基酸序列预测这些蛋白质的功能正成为基因组功能注释的主要挑战之一。传统的预测方法通常致力于从序列中提取生理化学特征，但忽略图案之间的基序信息和位置信息。同时，训练数据中的小规模数据量和大噪声导致预测的准确性和可靠性较低。在本文中，我们提出了一种基于深度学...

原创 2018-09-14 20:36:03 · 1105 阅读 · 0 评论
Bayesian 6 days 学习笔记---day1.part1

贝叶斯框架条件和边缘分布条件分布 = 联合/边缘产品规则：任何联合分布都可以表示为一维条件分布的乘积求和规则：通过整合不必要的变量，可以从联合分布中获得任何边际分布Arbitrary conditioning 任意调节假设我们有三组变量p（X，Y，Z）的联合分布我们观察Z并且对预测X感兴趣 Y的值是未知的，与我们无关如何从p...

原创 2018-09-11 10:45:17 · 161 阅读 · 0 评论
numpy.all()

numpy.all(a, axis=None, out=None, keepdims=<no value>)[source]测试沿给定轴的所有数组元素是否都计算为True。Parameters: a : array_like(输入可转换为数组的数组或对象。)axis : None or int or tuple of ints, optional沿轴或轴执行逻辑...

原创 2018-11-06 14:00:18 · 12381 阅读 · 0 评论
Semi-Supervised Learning with Generative Adversarial Networks 论文笔记

Abstract我们通过强制鉴别器网络输出类标签，将生成对抗网络（GAN）扩展到半监督上下文。我们在数据集上训练生成模型G和鉴别器D，其中输入属于N类之一。在训练时，D用于预测输入所属的N + 1个类中的哪一个，其中添加额外的类以对应于G的输出。我们表明该方法可用于创建更具数据效率的分类器。并且它允许生成比常规GAN更高质量的样本。 1. Introduction ...

原创 2018-11-07 08:33:48 · 1656 阅读 · 0 评论
RDD Programming Guide

Overview 在较高的层次上，每个Spark应用程序都包含一个驱动程序，该程序运行用户的主要功能并在群集上执行各种并行操作。 Spark提供的主要抽象是弹性分布式数据集（RDD），它是跨群集节点分区的元素的集合，可以并行操作。 RDD是通过从Hadoop文件系统（或任何其他Hadoop支持的文件系统）中的文件或驱动程序中的现有Scala集合开始并对其进行转换而创建的。用户还可以...

原创 2019-05-04 07:46:51 · 176 阅读 · 0 评论
机器学习面试知识点总结第一弹

偏差与方差what？偏差与方差分别是用于衡量一个模型泛化能力的误差的两个方面；模型的偏差，指的是模型预测的期望值与真实值之间的差；模型的方差，指的是模型预测的期望值和预测值之间的差的平方和；偏差用于描述模型的拟合能力；方差用于描述模型的稳定性why？偏差通常是做了错误的假设，或者模型的复杂度不够（欠拟合）。方差通常是模型的复杂度太高（过拟合）造...

原创 2019-03-19 09:47:26 · 1017 阅读 · 0 评论
机器学习面试知识点总结第三弹

LASSO回归，Ridge回归，Elastic Net（1）范数正则化（Ridge Regression，岭回归）（2）范数正则化（LASSO）（3）正则项正则项结合（Elastic Net）而范数正则化比范数更易获得“稀疏”解，即范数正则化求得的会有更少的非零分量，所以范数可用于特征选择，而范数在参数规则化时经常用到决策树What？从根...

原创 2019-03-22 08:11:07 · 322 阅读 · 0 评论
机器学习面试知识点总结第二弹

生成模型与判别模型监督学习模型可分为生成模型与判别模型判别模型直接学习决策函数或者条件概率分布直观来说，判别模型学习的是类别之间的最优分隔面，反映的是不同类数据之间的差异生成模型学习的是联合概率分布P(X,Y)，然后根据条件概率公式计算P(Y|X) 判别模型 K 近邻、感知机（神经网络）、决策树、逻辑斯蒂回归、最大熵模型、SVM、提升方法、条件随机场 ...

原创 2019-03-21 14:47:38 · 404 阅读 · 0 评论
推荐系统

推荐系统应用广告推荐豆瓣电影推荐电商推荐日常生活中的2种简单的推荐方法第一种就是非定制的推荐系统；第二种就是定制化的推荐系统。非定制的推荐系统简单来说就是，什么最热卖，什么关注的人多，就推荐你什么。定制化推荐系统协同过滤：（基于统计的算法）目的：找相似，可以是找相似的人，也可以找相似的东西。比如，我们找到相似的一群人，我们就能用其中一些人喜欢的...

原创 2019-03-17 19:16:07 · 139 阅读 · 0 评论
详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

最大似然估计（Maximum likelihood estimation, 简称MLE）和最大后验概率估计（Maximum a posteriori estimation, 简称MAP）是很常用的两种参数估计方法，如果不理解这两种方法的思路，很容易弄混它们。下文将详细说明MLE和MAP的思路与区别。贝叶斯公式就是在描述，你有多大把握能相信一件证据？（how much you can trust...

原创 2018-09-14 10:06:05 · 1417 阅读 · 0 评论
贝叶斯及其相关基础知识

历史背景贝叶斯全名为托马斯·贝叶斯(Thomas Bayes，1701-1761),是一位与牛顿同时代的牧师，是一位业余数学家，平时就思考些有关上帝的事情，当然，统计学家都认为概率这个东西就是上帝在掷骰子。当时贝叶斯发现了古典统计学当中的一些缺点，从而提出了自己的“贝叶斯统计学”，但贝叶斯统计当中由于引入了一个主观因素（先验概率，下文会介绍），一点都不被当时的人认可。直到20...

原创 2018-09-13 14:37:28 · 2937 阅读 · 0 评论
Bayesian 6 days 学习笔记---day1.part2

贝叶斯推理Problem 1SettingThe Dark MarkI stays with 20% probability if the makes dies I stays with 100% probability if the maker is still aliveThe Dark Lord survived his attack on Harry Potter...

原创 2018-09-11 14:39:03 · 147 阅读 · 0 评论
Improved detection of DNA-binding proteins via compression technology on PSSM information论文笔记

论文题目：Improved detection of DNA-binding proteins via compression technology on PSSM information通过PSSM信息上的压缩技术改进DNA结合蛋白的检测Abstract：由于已经认识到DNA结合蛋白在多种生物分子功能中的重要性，越来越多的研究人员正试图鉴定DNA结合蛋白。近年来，由于蛋白质序...

原创 2018-08-08 17:50:34 · 1338 阅读 · 0 评论
《机器学习实战》笔记--第八章：预测数值型数据：回归

知识点1：numpy之python 矩阵（mat）操作 np.mat()将数组转换为矩阵。知识点2：numpy flatten() a是个矩阵或者数组，a.flatten()就是把a降到一维，默认是按横的方向降>>> a = np.array([[1,2], [3,4]])>>> a.flatten()array([1, 2, ...

原创 2018-07-22 20:58:25 · 291 阅读 · 0 评论
《统计学习方法》笔记---第四章：朴素贝叶斯

1. 朴素贝叶斯法　　设输入空间为维向量的集合，输出空间为类标记集合，输入特征向量，输出类标记为，是和的联合概率分布，数据集由独立同分布产生。　　朴素贝叶斯法就是通过训练集来学习联合概率分布.具体怎么学习呢？主要就是从先验概率分布和条件概率分布入手，俩个概率相乘即可得联合概率。　　为什么称之为朴素呢，主要是其将条件概率的估计简化了，对条件概率分布作了条件独立性假设，这也是朴素贝叶...

原创 2018-07-19 20:42:08 · 266 阅读 · 0 评论
《机器学习实战》笔记--第五章：Logistic回归

知识点1：python strip()函数和Split函数的用法总结原文代码：def loadDataSet(): dataMat = [] labelMat = [] fr = open('testSet.txt') for line in fr.readlines(): lineArr = line.strip().split()strip函数原...

原创 2018-07-06 21:05:14 · 352 阅读 · 0 评论
《Python机器学习》笔记---第三章：使用scikit-learn实现机器学习分类算法

知识点1：sklearn.model_selection.train_test_split（）随机划分训练集和测试集原文demo：from sklearn.cross_validation import train_test_splitX_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.3,random_st...

原创 2018-07-05 20:27:20 · 706 阅读 · 0 评论
《Python机器学习》笔记---第二章：机器学习分类算法

知识点1：Python zip()函数原文demodef fit(self,X,y): self.w_ = np.zeros(1+X.shape[1]) self.errors_ = [] for _ in range(self.epoch): errors = 0 for xi,target in ...

原创 2018-07-05 13:55:51 · 917 阅读 · 0 评论
《Python机器学习》笔记---第一章

数据预处理

原创 2018-07-05 09:54:09 · 125 阅读 · 0 评论
《机器学习实战》笔记--第三章：决策树

知识点1：python set()函数 set() 函数创建一个无序不重复元素集，可进行关系测试，删除重复数据，还可以计算交集、差集、并集等。>>>x = set('runoob')>>> y = set('google')>>> x, y(set(['b', 'r', 'u', 'o', 'n']), set(['e', ...

原创 2018-07-17 21:13:12 · 552 阅读 · 0 评论
李宏毅GAN课堂笔记 part1：introduction

Basic Idea of GAN 随便给定一个向量就可以生成一个图片。假设第一向量元素对应的是头发长度，假设倒数第二个元素对应的是头发蓝色的程度，值越大，越蓝。Generator v.s. Discriminatorfix这里意为固定这个生成模型的输入是一个向量，输出是一个数值。中间是一个大的网络，中间其中一个隐藏层的数值是中...

原创 2018-09-11 20:34:54 · 830 阅读 · 0 评论
Bayesian Generative Adversarial Networks in Tensorflow DOC

Introduction在贝叶斯GAN中，我们提出了生成器和鉴别器权重的条件后验，并通过随机梯度哈密顿蒙特卡罗将这些后验边缘化。贝叶斯方法对GAN的关键属性包括：（1）对半监督学习问题的准确预测; （3）响应对抗性反馈的推理的推理性表述; （4）避免模式崩溃; （5）数据的多个互补的生成和判别模型的表示，形成概率集合。我们说明了生成器参数的多模式后验。这...

原创 2018-09-09 09:55:13 · 435 阅读 · 0 评论
Stochastic Gradient Hamiltonian Monte Carlo论文笔记

Abstract哈密尔顿蒙特卡罗（HMC）抽样方法提供了一种机制，用于在Metropolis-Hastings框架中定义具有高接受概率的远程建议，从而比标准随机游走建议更有效地探索状态空间。近年来，这种方法的普及已经显着增长。然而，HMC方法的限制是用于模拟哈密顿动力系统所需的梯度计算 - 这种计算在涉及大样本大小或流数据的问题中是不可行的。相反，我们必须依赖于从数据子集计算的噪声梯度...

原创 2018-09-07 13:52:27 · 3708 阅读 · 2 评论
100-Days-Of-ML-Code知识点积累 day1,day2

使用sklearn-preprocessing Imputer进行数据预处理在scikit-learn的模型中都是假设输入的数据是数值型的，并且都是有意义的，如果有缺失数据是通过NAN，或者空值表示的话，就无法识别与计算了。要弥补缺失值，可以使用均值，中位数，众数等等。Imputer这个类可以实现。from sklearn.preprocessing import Impu...

原创 2018-09-10 14:49:43 · 295 阅读 · 0 评论
Bayesian Deep Learning 学习笔记

为什么要学习贝叶斯深度学习？它是一个模型构建和理解泛化的强大框架不确定性表示（对决策至关重要）更好的点估计从概率论的角度来看，神经网络不那么神秘。缺点可以在计算上难以处理（但不一定是）可能涉及很多运动部件（但不必）。我们如何构建学习和概括的模型？概率方法我们可以在模型中明确说明噪音。对于i.i.d，通常需要ε（x）= N（0;σ2）。 ...

原创 2018-09-10 14:49:19 · 2257 阅读 · 0 评论
马尔可夫链

1.什么是随机过程顾名思义，它其实就是个过程，比如今天下雨，那么明天下不下雨呢？后天下不下雨呢？从今天下雨到明天不下雨再到后天下雨，这就是个过程。那么怎么预测N天后到底下不下雨呢？这其实是可以利用公式进行计算的，随机过程就是这样一个工具，把整个过程进行量化处理，用公式就可以推导出来N天后的天气状况，下雨的概率是多少，不下雨的概率是多少。说白了，随机过程就是一些统计模型，利用这...

原创 2018-09-10 14:48:21 · 3902 阅读 · 2 评论
EL_PSSM-RT论文阅读笔记

原文：EL_PSSM-RT: DNA-binding residue prediction by integrating ensemble learning with PSSM Relation Transformation摘要 Background:DNA结合残基的预测对于理解蛋白质-DNA识别机制是重要的。已经提出了许多用于预测的计算方法，但是它们中的大多数没有考虑残差之间的进...

原创 2018-09-14 20:26:25 · 1147 阅读 · 2 评论
李宏毅GAN课堂笔记 part4：Theory behind GAN

假设我们要生成的图片是二次元人脸的话，他有一个固定的图案是他的分布，这个分布在蓝色的这个区域生成的图片被判别器识别的准确率是高的。我们的目的是找出这个分布。Maximum Likelihood Estimation 我们提供一个分布由这个θ控制。比如高斯分布，θ指平均值和方差从Pdata（X）中抽样中m个data 把这些几率全部乘起来是我们要maximu...

原创 2018-09-12 19:23:24 · 605 阅读 · 0 评论
Welcome to ZhuSuan DOC

ZhuSuan是一个用于贝叶斯深度学习的python概率编程库，它结合了贝叶斯方法和深度学习的互补优势。 ZhuSuan建立在Tensorflow之上。与现有的深度学习库（主要用于确定性神经网络和监督任务）不同，ZhuSuan提供深度学习风格原语和算法，用于构建概率模型和应用贝叶斯推理。支持的推理算法包括：具有可编程变分后验，各种目标和高级梯度估计器（SGVB，REINFORCE，VIMC...

翻译 2018-09-06 16:09:37 · 540 阅读 · 0 评论
李宏毅GAN课堂笔记 part2：Conditional Generation by GAN

Conditional GAN 原始的GAN只是输入一个噪声z，而条件GAN还加入了条件c。而相应的辨别器也要相应的改变，它同样接受两个参数。而它要做的事情有两件，第一是判断生成的图片是否是真实的。第二是判断c和x是否匹配。 ...

原创 2018-09-12 13:46:45 · 451 阅读 · 0 评论
Deep Supervised and Convolutional Generative Stochastic Network for Protein Secondary Structure Pred

Deep Supervised and Convolutional Generative Stochastic Network for Protein Secondary Structure Prediction论文笔记用于蛋白质二级结构预测的深度监督和卷积生成随机网络Abstract预测蛋白质二级结构是蛋白质结构预测中的基本问题。在这里，我们提出了一种新的监督生成随机网络（GSN...

原创 2018-09-06 10:26:27 · 783 阅读 · 1 评论
《统计学习方法》笔记--第五章：决策树

简介：决策树（decision tree）是一种基本的分类与回归方法。其主要优点是模型具有可读性，分类速度快。学习时，利用训练数据，根据损失函数最小化的原则建立决策树模型。预测时，对新的数据，利用决策树模型进行分类。决策树学习通常包括3个步骤：特征选择、决策树的生成和决策树的修剪。一、决策树模型与学习分类决策树模型是一种描述对实例进行分类的树形结构。决策...

原创 2018-07-08 21:48:10 · 1391 阅读 · 0 评论

机器学习

作者: joshuasea

JAVA笔记

ProteinSecondaryStructure-CNN阅读笔记

Protein Secondary Structure Prediction with Long Short Term Memory Networks论文阅读笔记

Protein Secondary Structure Prediction Using Cascaded Convolutional and Recurrent Neural Networks笔记

On the prediction of DNA-binding proteins only from primary sequences: A deep learning approach论文笔记

Bayesian 6 days 学习笔记---day1.part1

numpy.all()

Semi-Supervised Learning with Generative Adversarial Networks 论文笔记

RDD Programming Guide

机器学习面试知识点总结第一弹

机器学习面试知识点总结第三弹

机器学习面试知识点总结第二弹

推荐系统

详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

贝叶斯及其相关基础知识

Bayesian 6 days 学习笔记---day1.part2

Improved detection of DNA-binding proteins via compression technology on PSSM information论文笔记

《机器学习实战》笔记--第八章：预测数值型数据：回归

《统计学习方法》笔记---第四章：朴素贝叶斯

《机器学习实战》笔记--第五章：Logistic回归

《Python机器学习》笔记---第三章：使用scikit-learn实现机器学习分类算法

《Python机器学习》笔记---第二章：机器学习分类算法

《Python机器学习》笔记---第一章

《机器学习实战》笔记--第三章：决策树

李宏毅GAN课堂笔记 part1：introduction

Bayesian Generative Adversarial Networks in Tensorflow DOC

Stochastic Gradient Hamiltonian Monte Carlo论文笔记

100-Days-Of-ML-Code知识点积累 day1,day2

Bayesian Deep Learning 学习笔记

马尔可夫链

EL_PSSM-RT论文阅读笔记

李宏毅GAN课堂笔记 part4：Theory behind GAN

Welcome to ZhuSuan DOC

李宏毅GAN课堂笔记 part2：Conditional Generation by GAN

Deep Supervised and Convolutional Generative Stochastic Network for Protein Secondary Structure Pred

《统计学习方法》笔记--第五章：决策树