- 博客(127)
- 资源 (42)
- 收藏
- 关注
转载 Python爬虫入门三之Urllib库的基本使用
1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS、CSS,如果把网页比作一个人,那么HTML便是他的骨架,JS便是他的肌肉,CSS便是它的衣服。所以最重要的部分是存在于HTML中的,下面我们就写个例子来扒一个网页下来。1234im
2017-05-31 14:50:55 319
转载 Python JSON模块
(一)什么是json:JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式。易于人阅读和编写。同时也易于机器解析和生成。它基于JavaScript Programming Language, Standard ECMA-262 3rd Edition - December 1999的一个子集。JSON采用完全独立于语言的文本格式,但是也使用了类似于C
2017-05-31 14:48:43 243
转载 Python Pandas与Numpy中axis参数的二义性
Stackoverflow.com是程序员的好去处,本公众号将以pandas为主题,开始一个系列,争取做到每周一篇,翻译并帮助pandas学习者一起理解一些有代表性的案例。今天的主题就是Pandas与Numpy中一个非常重要的参数:axis.(轴)Stackoverflow问题如下:python中的axis究竟是如何定义的呢?他们究竟代表是DataFrame的行还是列?考虑以下代码
2017-05-26 17:13:06 1529
转载 机器学习之正则化(Regularization)
1. The Problem of Overfitting1还是来看预测房价的这个例子,我们先对该数据做线性回归,也就是左边第一张图。如果这么做,我们可以获得拟合数据的这样一条直线,但是,实际上这并不是一个很好的模型。我们看看这些数据,很明显,随着房子面积增大,住房价格的变化趋于稳定或者说越往右越平缓。因此线性回归并没有很好拟合训练数据。我们把此类情
2017-05-26 14:35:46 482
转载 核函数
http://crsouza.com/2010/03/17/kernel-functions-for-machine-learning-applications/In recent years, Kernel methods have received major attention, particularly due to the increased popularity of th
2017-05-25 20:27:38 1133
转载 线性判别分析(Linear Discriminant Analysis)(二)
4. 实例 将3维空间上的球体样本点投影到二维上,W1相比W2能够获得更好的分离效果。 PCA与LDA的降维对比: PCA选择样本点投影具有最大方差的方向,LDA选择分类性能最好的方向。 LDA既然叫做线性判别分析,应该具有一定的预测功能,比如新来一个样例x,如何确定其类别?
2017-05-25 19:02:16 441
转载 线性判别分析(Linear Discriminant Analysis)(一)
http://www.cnblogs.com/jerrylead/archive/2011/04/21/2024384.html1. 问题 之前我们讨论的PCA、ICA也好,对样本数据来言,可以是没有类别标签y的。回想我们做回归时,如果特征太多,那么会产生不相关特征引入、过度拟合等问题。我们可以使用PCA来降维,但PCA没有将类别标签考虑进去,属于无监督的。
2017-05-25 19:00:10 397
转载 A Painless Q-learning Tutorial (一个 Q-learning 算法的简明教程)
本文是对 http://mnemstudio.org/path-finding-q-learning-tutorial.htm 的翻译,共分两部分,第一部分为中文翻译,第二部分为英文原文。翻译时为方便读者理解,有些地方采用了意译的方式,此外,原文中有几处笔误,在翻译时已进行了更正。这篇教程通俗易懂,是一份很不错的学习理解 Q-learning 算法工作原理的材料。第一
2017-05-25 15:27:11 276
转载 偏最小二乘法回归(Partial Least Squares Regression)
[pdf版本]偏最小二乘法回归.pdf1. 问题 这节我们请出最后的有关成分分析和回归的神器PLSR。PLSR感觉已经把成分分析和回归发挥到极致了,下面主要介绍其思想而非完整的教程。让我们回顾一下最早的Linear Regression的缺点:如果样例数m相比特征数n少(m(n*n矩阵)的秩小于特征个数(即不可逆)。因此最小二乘法就会失效。 为了解决这个问题
2017-05-25 14:48:05 2298
转载 典型关联分析(Canonical Correlation Analysis)
典型关联分析(Canonical Correlation Analysis)[pdf版本] 典型相关分析.pdf1. 问题 在线性回归中,我们使用直线来拟合样本点,寻找n维特征向量X和输出结果(或者叫做label)Y之间的线性关系。其中,。然而当Y也是多维时,或者说Y也有多个特征时,我们希望分析出X和Y的关系。 当然我们仍然可以使用回归的方法来分析,做法
2017-05-25 12:08:41 1676
转载 增强学习(Reinforcement Learning and Control)
http://www.cnblogs.com/jerrylead/archive/2011/05/13/2045309.html [pdf版本]增强学习.pdf 在之前的讨论中,我们总是给定一个样本x,然后给或者不给label y。之后对样本进行拟合、分类、聚类或者降维等操作。然而对于很多序列决策或者控制问题,很难有这么规则的样本。比如,四足机器人的控制问题
2017-05-25 12:07:28 1384
转载 Cost Sensitive Learning
http://www.svcl.ucsd.edu/projects/CostLearning/Cost Sensitive LearningCost Sensitive LearningClassification problems such as fraud detection, medical diagnosis, or obje
2017-05-24 18:29:34 6404
转载 不平衡数据分类算法介绍与比较
https://arxiv.org/abs/1608.06048介绍在数据挖掘中,经常会存在不平衡数据的分类问题,比如在异常监控预测中,由于异常就大多数情况下都不会出现,因此想要达到良好的识别效果普通的分类算法还远远不够,这里介绍几种处理不平衡数据的常用方法及对比。符号表示记多数类的样本集合为L,少数类的样本集合为S。用r=|S|/|L|表示少数类与多数
2017-05-24 18:21:22 1054
转载 增强学习(二)----- 马尔可夫决策过程Markov Decision
1. 马尔可夫模型的几类子模型我想大家一定听说过马尔科夫链(Markov Chain), 搞机器学习的也都知 道隐马尔可夫模型(Hidden Markov Model,HMM)。它们具有的一个共同性质就是马尔可夫性(无后效性),也就是指系统的下个状态只与当前状态信息有关,而与更早之前的状态无关。马尔可夫决策过程(MDP)也具有马尔可夫性,与上面不同的是MDP考虑了动作,即系统下个状
2017-05-23 13:28:25 2918
转载 隐马尔科夫模型HMM学习最佳范例
隐马尔科夫模型HMM学习最佳范例 公开 2012-10-24 19:33 | (分类:Bioinformatics)谷歌路过这个专门介绍HMM及其相关算法的主页:http://www.comp.leeds.ac.uk/roger/HiddenMarkovModels/html_dev/main.html 里面图文并茂动感十足,写得通俗易懂,可以说是介绍HMM很好的范例了。一个名
2017-05-23 13:07:03 1326
转载 SVM多类分类方法
SVM多类分类方法的实现根据其指导思想大致有两种:(1)将多类问题分解为一系列SVM可直接求解的两类问题,基于这一系列SVM求解结果得出最终判别结果。(2)通过对前面所述支持向量分类机中的原始最优化问题的适当改变,使得它能同时计算出所有多类分类决策函数,从而“一次性”地实现多类分类。原始问题可以改写为:虽然第(2)种指导思想看起来简单,但由于它的最优化问题求解过程太复杂,计
2017-05-23 11:56:17 762
转载 SVM实现多分类的三种方案
SVM本身是一个二值分类器 SVM算法最初是为二值分类问题设计的,当处理多类问题时,就需要构造合适的多类分类器。 目前,构造SVM多类分类器的方法主要有两类 (1)直接法,直接在目标函数上进行修改,将多个分类面的参数求解合并到一个最优化问题中,通过求解该最优化问题“一次性”实现多类分类。这种方法看似简单,但其计算复杂度比较高,实现起来比较困难,只适合用于小型问题中;
2017-05-23 11:54:53 4828
转载 Active Learning
阅读目录1. 写在前面2. 什么是active learning?3. active learning的基本思想4. active learning与半监督学习的不同5. 参考文献回到顶部1. 写在前面 在机器学习(Machine learning)领域,监督学习(Supervised learning)、非监督学习(Unsupervise
2017-05-23 11:53:38 708
转载 总结:Bootstrap(自助法),Bagging,Boosting(提升)
前言最近在理清一些很必要的也很基础的东西,记录一下,结合网上和文献,自己也有些易化使之更轻松理解,如有错误,请不吝赐教,多谢!Bootstrap(自助法)Bootstrap是一种抽样方法核心思想这里写图片描述子样本之于样本,可以类比样本之于总体栗子:我要统计鱼塘里面的鱼的条数,怎么统计呢?假设鱼塘总共有鱼100
2017-05-23 11:41:12 1185
转载 机器学习经典算法详解及Python实现--元算法、AdaBoost
版权声明:本文为博主原创文章,未经博主允许不得转载--“http://blog.csdn.net/suipingsp”。目录(?)[+]第一节,元算法略述遇到罕见病例时,医院会组织专家团进行临床会诊共同分析病例以判定结果。如同专家团临床会诊一样,重大决定汇总多个人的意见往往胜过一个人的决定。机器学习中也吸取了‘三个臭皮匠顶个诸葛亮’(实质上是由三个裨将顶
2017-05-23 11:11:09 601
转载 集成学习方法
很好的参考:https://ocw.mit.edu/courses/health-sciences-and-technology/hst-951j-medical-decision-support-fall-2005/lecture-notes/hst951_6.pdf 集成学习是机器学习算法中非常强大的工具,有人把它称为机器学习中的“屠龙刀
2017-05-23 11:08:40 527
转载 sigmoid和softmax总结
sigmoid函数(也叫逻辑斯谛函数): 引用wiki百科的定义: A logistic function or logistic curve is a common “S” shape (sigmoid curve). 其实逻辑斯谛函数也就是经常说的sigmoid函数,它的几何形状也就是一条sigmoid曲线。 logistic曲线如下:
2017-05-22 19:44:18 680
转载 Python中flatten用法
一、用在数组 >>> a = [[1,3],[2,4],[3,5]] >>> a = array(a) >>> a.flatten() array([1, 3, 2, 4, 3, 5]) 二、用在列表如果直接用flatten函数会出错 >>> a = [[1,3],[2,4],[3,5]] >>
2017-05-22 18:21:55 874
转载 numpy中的matrix矩阵处理
numpy模块中的矩阵对象为numpy.matrix,包括矩阵数据的处理,矩阵的计算,以及基本的统计功能,转置,可逆性等等,包括对复数的处理,均在matrix对象中。 class numpy.matrix(data,dtype,copy):返回一个矩阵,其中data为ndarray对象或者字符形式;dtype:为data的type;copy:为bool类型。>>> a = np.matrix(
2017-05-22 18:11:59 539
转载 使用SQL语句从数据库一个表中随机获取数据
-- 随机获取 10 条数据SQL Server:SELECT TOP 10 * FROM T_USER ORDER BY NEWID()ORACLE:SELECT * FROM (SELECT * FROM T_USER ORDER BY DBMS_RANDOM.RANDOM()) WHERE RONUM MySQL:SELECT * FROM T_USER
2017-05-22 16:27:10 5345
转载 独立成分分析(Independent Component Analysis)
独立成分分析(Independent Component Analysis)1. 问题: 1、上节提到的PCA是一种数据降维的方法,但是只对符合高斯分布的样本点比较有效,那么对于其他分布的样本,有没有主元分解的方法呢? 2、经典的鸡尾酒宴会问题(cocktail party problem)。假设在party中有n个人,他们可以同时说话,我们也在房间中一些角落里
2017-05-22 12:34:45 493
转载 8 Tactics to Combat Imbalanced Classes in Your Machine Learning Dataset
原文地址: http://machinelearningmastery.com/tactics-to-combat-imbalanced-classes-in-your-machine-learning-dataset/Has this happened to you?You are working on your dataset. You create a classific
2017-05-22 12:09:53 506
转载 随机采样方法整理(MCMC、Gibbs Sampling等)
转载请注明出处:Bin的专栏,http://blog.csdn.NET/xbinworld本文是对参考资料中多篇关于sampling的内容进行总结+搬运,方便以后自己翻阅。其实参考资料中的资料写的比我好,大家可以看一下!好东西多分享!PRML的第11章也是sampling,有时间后面写到PRML的笔记中去:)背景随机模拟也可以叫做蒙特卡罗模拟(Monte Carlo S
2017-05-22 12:01:59 766
转载 【译文】R语言不平衡数据分类指南
在对不平衡的分类数据集进行建模时,机器学习算法可能并不稳定,其预测结果甚至可能是有偏的,而预测精度此时也变得带有误导性。那么,这种结果是为何发生的呢?到底是什么因素影响了这些算法的表现?在不平衡的数据中,任一算法都没法从样本量少的类中获取足够的信息来进行精确预测。因此,机器学习算法常常被要求应用在平衡数据集上。那我们该如何处理不平衡数据集?本文会介绍一些相关方法,它们并不复杂只是技巧性比较
2017-05-22 11:08:20 3540
转载 斯坦福大学机器学习——因子分析(Factor analysis)
1 问题 之前我们考虑的训练数据中样例的个数m都远远大于其特征个数n,这样不管是进行回归、聚类等都没有太大的问题。然而当训练样例个数m太小,甚至m<<n的时候,使用梯度下降法进行回归时,如果初值不同,得到的参数结果会有很大偏差(因为方程数小于参数个数)。另外,如果使用多元高斯分布(Multivariate Gaussian distribution)对数据进行拟合时,也会有问题。让
2017-05-21 20:49:57 3261 1
转载 斯坦福大学机器学习——EM算法求解高斯混合模型
EM算法(Expection-Maximizationalgorithm,EM)是一种迭代算法,通过E步和M步两大迭代步骤,每次迭代都使极大似然函数增加。但是,由于初始值的不同,可能会使似然函数陷入局部最优。辜丽川老师和其夫人发表的论文:基于分裂EM算法的GMM参数估计(提取码:77c0)改进了这一缺陷。下面来谈谈EM算法以及其在求解高斯混合模型中的作用。一、 高斯混合模型(Gauss
2017-05-21 20:27:15 595
转载 深入解析python版SVM源码系列(三)——计算样本的预测类别
系列(二)中,对于SMO算法中有一个重要的代码:计算样本的预测类别。如下:fXi = float(multiply(alphas,labelMat).T*(dataMatrix*dataMatrix[i,:].T)) + b # 第i样本的预测类别11我们知道原始的预测类别计算公式是用决策面的参数w和b表示的,那么为什么这里的貌似不一样呢? 原始的预测类别计算公式为:
2017-05-21 14:59:50 1411
转载 EM算法--应用到三个模型: 高斯混合模型 ,混合朴素贝叶斯模型,因子分析模型
判别模型求的是条件概率p(y|x),生成模型求的是联合概率p(x,y) .即 = p(x|y) ∗ p(y) 常见的判别模型有线性回归、对数回归、线性判别分析、支持向量机、boosting、条件 随机场、神经网络等。常见的生产模型有隐马尔科夫模型、朴素贝叶斯模型、高斯混合模型、LDA、Restricted Boltzmann Machine等。所以这里说的高斯混合模型,
2017-05-21 10:47:09 3077
转载 从最大似然到EM算法浅解
从最大似然到EM算法浅解zouxy09@qq.comhttp://blog.csdn.net/zouxy09 机器学习十大算法之一:EM算法。能评得上十大之一,让人听起来觉得挺NB的。什么是NB啊,我们一般说某个人很NB,是因为他能解决一些别人解决不了的问题。神为什么是神,因为神能做很多人做不了的事。那么EM算法能解决什么问题呢?或者说EM算法是因为什么而来到
2017-05-21 10:40:12 276
转载 K-mean原理及实践(K值确定)
kmeans一般在数据分析前期使用,选取适当的k,将数据聚类后,然后研究不同聚类下数据的特点。 算法原理:(1) 随机选取k个中心点;(2) 在第j次迭代中,对于每个样本点,选取最近的中心点,归为该类;(3) 更新中心点为每类的均值;(4) j空间复杂度o(N)时间复杂度o(I*K*N)其中N为样本点个数,K为中心点个数,I为
2017-05-21 10:39:17 5983
转载 数据中聚类个数的确定(Determining the number of clusters in a data set)
版权声明:本文为博主原创文章,欢迎转载,转载请注明出处。目录(?)[+]本文主要讨论聚类中聚类个数的确定问题。本文地址:http://blog.csdn.net/shanglianlm/article/details/466712091. K的作用Intuitively then, the optimal choice of k
2017-05-20 22:54:17 1812
转载 logistic算法解析
[python] view plain copy"font-family: Arial, Helvetica, sans-serif; background-color: rgb(255, 255, 255);">对于《机器学习实战》中逻辑斯谛回归算法,其中有一行不好理解: [python] view plain copy
2017-05-20 15:36:54 729
转载 numpy 数组和矩阵的乘法的理解
1. 当为array的时候,默认d*f就是对应元素的乘积,multiply也是对应元素的乘积,dot(d,f)会转化为矩阵的乘积, 2. 当为mat的时候,默认d*f就是矩阵的乘积,multiply转化为对应元素的乘积,dot(d,f)为矩阵的乘积 3. 混合时候的情况,一般不要混合 混合的时候默认按照矩阵乘法的, multiply转化为对应
2017-05-20 15:08:43 47943 4
转载 机器学习之特征选择
特征选择方法初识:1、为什么要做特征选择在有限的样本数目下,用大量的特征来设计分类器计算开销太大而且分类性能差。2、特征选择的确切含义将高维空间的样本通过映射或者是变换的方式转换到低维空间,达到降维的目的,然后通过特征选取删选掉冗余和不相关的特征来进一步降维。3、特征选取的原则获取尽可能小的特征子集,不显著降低分类精度、不影响类分布以及特征子集应具有稳定适应性强等特点
2017-05-20 11:56:14 891
转载 互信息(Mutual Information)
本文根据以下参考资料进行整理: 1.维基百科:https://zh.wikipedia.org/wiki/%E4%BA%92%E4%BF%A1%E6%81%AF 2.新浪博客:http://blog.sina.com.cn/s/blog_6255d20d0100ex51.html 在概率论和信息论中,两个随机变量的互信息(Mutual Information,
2017-05-20 11:54:57 4740
Pro Go The Complete Guide -go语言学习最新书籍
2023-06-19
Advanced_Programming_in_the_UNIX_Environment,_3rd
2018-11-30
Deep_Learning_Quick_Reference
2018-09-01
Convex Optimization Algorithms
2018-09-01
Guide.to.Medical.Image.Analysis.Methods.and.Algorithms
2018-09-01
Python Machine Learning Machine Learning and Deep Learning
2018-03-27
Data Structures and Algorithms Using Python and C++
2018-03-27
R_for_Data_Science
2018-03-27
Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow
2018-03-17
Approximate.Dynamic.Programming.2011
2018-01-17
Swarm Intelligence Principles Advances and Applications
2018-01-13
Reinforcement Learning With Open A TensorFlow and Keras Using Python.pdf
2017-12-18
Fundamentals of Deep Learning完整非扫描版本2017
2017-12-16
Text Mining in Practice with R 2017.12
2017-12-13
Text_Mining-From_Ontology_Learning_to_Automated_Text_Processing_Applications
2017-12-13
Tensorflow 机器学习参考手册2007
2017-11-22
Spark大数据处理技术 带标签 完整版
2017-11-12
模式分类11
2016-11-07
集体编程智慧
2016-11-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人