机器学习
文章平均质量分 92
zhaofrjx
这个作者很懒,什么都没留下…
展开
-
python 实现PCA
1.PCA原理介绍 主成分分析(英语:Principal components analysis,PCA)是一种分析、简化数据集的技术。主成分分析经常用于减少数据集的维数,同时保持数据集中的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。PCA的核心是处理数据,将需要处理的数据转换到矩阵,一般来只要能够转换为合适矩阵的数据,原创 2015-08-24 09:57:47 · 2530 阅读 · 0 评论 -
卷积神经网络解析
前言 从理解卷积神经到实现它,前后花了一个月时间,现在也还有一些地方没有理解透彻,CNN还是有一定难度的,不是看哪个的博客和一两篇论文就明白了,主要还是靠自己去专研,阅读推荐列表在末尾的参考文献。目前实现的CNN在MINIT数据集上效果还不错,但是还有一些bug,因为最近比较忙,先把之前做的总结一下,以后再继续优化。 卷积神经网络CNN是Deep Learning的一个重要算法,在很多转载 2016-03-29 14:06:39 · 3479 阅读 · 0 评论 -
机器学习之基本算法总结
机器学习方法越来越得到关注与学习,很多人在研读机器学习相关文章和算法时,对一些概念不慎明确,容易走进坑里花费太多的时间才弄明白,有作者将一些并不是很简单的基础知识算法做了一定的总结。本文在原博文的基础上根据自己的阅读和理解,做了一些补充,对概念和算法的总结如下。原创 2015-10-30 15:10:27 · 1746 阅读 · 0 评论 -
算法实现的复杂度计算
时间复杂度的定义一般情况下,算法中基本操作重复执行的次数是问题规模n的某个函数,用T(n)表示,若有某个辅助函数f(n),使得当n趋近于无穷大时,T(n)/f(n)的极限值为不等于零的常数,则称f(n)是T(n)的同数量级函数。记作T(n)=O(f(n)),称O(f(n))为算法的渐进时间复杂度(O是数量级的符号 ),简称时间复杂度。转载 2015-08-22 16:29:38 · 876 阅读 · 0 评论 -
Python 2.7(3.x)以及numpy、matplotlib和scipy库三种方法实战安装
Python 2.7(3.x)以及numpy、matplotlib和scipy库三种方法实战安装Python是目前十分流行的跨平台编程语言。Ubuntu下python和其比较常用的库,比如numpy、matplotlib和scipy都是比较容易安装的,但笔者使用的是windows 7 x64版本,windows 64位的安装比较繁琐,本文做一总结提供了三种安装方法,让python在64位下,飞快跑起来原创 2015-07-08 10:09:26 · 7036 阅读 · 0 评论 -
python kmeans算法
1.kmeans 算法k-平均算法源于信号处理中的一种向量量化方法,现在则更多地作为一种聚类分析方法流行于数据挖掘领域。k-平均聚类的目的是:把个点(可以是样本的一次观察或一个实例)划分到k个聚类中,使得每个点都属于离他最近的均值(此即聚类中心)对应的聚类,以之作为聚类的标准。这个问题将归结为一个把数据空间划分为Voronoi cells的问题。kmeans是一种无监督的方法,具体思想原创 2015-08-21 09:40:22 · 2060 阅读 · 0 评论 -
python 逻辑回归 程序解析
python《机器学习实战》逻辑回归部分,用全部样本多次进行梯度上升的程序如下:# coding=utf-8__author__ = 'Administrator'from numpy import *#从文本中加载数据,文档中保存了100个坐标为X,Y的数据def loadDataSet(): dataMat = []; labelMat = [] fr = open原创 2015-08-17 15:22:32 · 3108 阅读 · 0 评论 -
python 机器学习之kNN算法
1、KNN分类算法KNN分类算法(K-Nearest-Neighbors Classification),又叫K近邻算法,是一个概念极其简单,而分类效果又很优秀的分类算法。他的核心思想就是,要确定测试样本属于哪一类,就寻找所有训练样本中与该测试样本“距离”最近的前K个样本,然后看这K个样本大部分属于哪一类,那么就认为这个测试样本也属于哪一类。简单的说就是让最相似的K个样本来投票决定原创 2015-08-15 21:40:01 · 1133 阅读 · 0 评论 -
python 决策树学习
算法原理决策树(Decision Tree)是一种经典的数据挖掘算法,它的应用很广泛,具体到算法本身也有不同的策略。通过训练数据构建决策树,可以高效的对未知的数据进行分类。决策数有两大优点:1)决策树模型可以读性好,具有描述性,有助于人工分析;2)效率高,决策树只需要一次构建,反复使用,每一次预测的最大计算次数不超过决策树的深度。它是根据特征(feature)的值逐步把数据分类,直到所有的叶子节点属原创 2015-08-15 15:31:15 · 2056 阅读 · 0 评论 -
机器学习样本特征之间的相似性度量总结
在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMeasurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。本文目录:1.欧氏距离2.曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离转载 2016-03-17 09:33:27 · 3567 阅读 · 0 评论