关闭

从协方差矩阵角度看PCA

本文转载于http://pinkyjie.com/2011/02/24/covariance-pca/ 自从上次谈了协方差矩阵之后,感觉写这种科普性文章还不错,那我就再谈一把协方差矩阵吧。上次那篇文章在理论层次介绍了下协方差矩阵,没准很多人觉得这东西用处不大,其实协方差矩阵在好多学科里都有很重要的作用,比如多维的正态分布,再比如今天我们今天的主角——主成分分析(Principal Compone...
阅读(86) 评论(0)

谱聚类原理总结-by刘建平大神

本文转载于http://www.cnblogs.com/pinard/p/6221564.html     谱聚类(spectral clustering)是广泛使用的聚类算法,比起传统的K-Means算法,谱聚类对数据分布的适应性更强,聚类效果也很优秀,同时聚类的计算量也小很多,更加难能可贵的是实现起来也不复杂。在处理实际的聚类问题时,个人认为谱聚类是应该首先考虑的几种算法之一。下面我们就...
阅读(140) 评论(0)

谱聚类原理

本文转载于http://blog.csdn.net/betarun/article/details/51154003 这方法是昨天听同学提起的,大致翻看了几篇博客跟论文,这里写下自己的理解 从样本相似性到图 根据我们一般的理解,聚类是将相似的样本归为一类,或者说使得同类样本相似度尽量高,异类样本相似性尽量低。无论如何,我们需要一个方式度量样本间的相似性。常用的方式就是引入各种度量,如欧氏距离...
阅读(96) 评论(0)

PCA原理

PCA方法是数据降维的重要手段之一,方法比较简单,就是将样本数据求一个维度的协方差矩阵,然后求解这个协方差矩阵的特征值和对应的特征向量,将这些特征向量按照对应的特征值从大到小排列,组成新的矩阵,被称为特征向量矩阵,也可以称为投影矩阵,然后用改投影矩阵将样本数据转换。取前K维数据即可,实现对数据的降维。        假设样本数据有r维(组成一个r维向量),共有n个样本。组成r*n矩阵A,矩阵每一...
阅读(69) 评论(0)

from A import B 和 import A.B 的区别

在python的运行框里分别输入import datetime.datetime 和 from datetime import datetime,本以为结果应该是一样,结果前者却报错。 >>> importdatetime.datetimeTraceback (most recent call last):  File "", line 1, inImportError: No module ...
阅读(92) 评论(0)

矩阵求导

本文转载于http://xuehy.github.io/2014/04/18/2014-04-18-matrixcalc/ Table of Contents 1. 布局(Layout)2. 基本的求导规则(定义)3. 维度分析4. 标量对矩阵求导(微分形式) — 矩阵求导,想必许多领域能见到。统计学,经济学,优化,机器学习等等,在对目标问题建立数学模型之后,问...
阅读(104) 评论(0)

利用pandas进行数据预处理

目录:       1.安装pandas                 2.pandas的引入                 3.数据清洗                        ①处理缺失数据                        ②检测和过滤异常值                        ③移除重复数据                  4.数据集成...
阅读(157) 评论(0)

Python 数据处理—12 个Pandas 技巧(上下)

http://datartisan.com/article/detail/81.html 导语 Python正迅速成为数据科学家偏爱的语言,这合情合理。它拥有作为一种编程语言广阔的生态环境以及众多优秀的科学计算库。如果你刚开始学习python,可以先了解一下Python的学习路线。 在众多的科学计算库中,我认为Pandas对数据科学运算最有用。Pandas,加上Scikit-learn几乎能构成了数...
阅读(150) 评论(0)

机器学习绘图(numpy和matplotlib库)

yuanwen: http://blog.csdn.net/crossky_jing/article/details/49466127 scikit-learn 练习题 题目:Try classifying classes 1 and 2 from the iris dataset with SVMs, with the 2 first features. Leave out 10% of each...
阅读(52) 评论(0)

Pandas数据基础(索引、排序、连接、去重、分箱、异常处理)

原文地址:http://kekefund.com/2016/02/23/pandas-anlysis-basic/使用pandas,首先导入包:from pandas import Series, DataFrame import pandas as pd 123123一、创建Series,DataFrame1,创建Seriesa,通过列表创建obj = Series([4, 7, -5, 3])...
阅读(334) 评论(0)

GBDT决策树入门教程

本文转载于:苏冉旭的博客 http://blog.csdn.net/suranxu007/GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力(generalizati...
阅读(100) 评论(0)

GBDT的小结(来自论文greedy function approximation: a gradient boosting machine)

Gradient Boosting Decision Tree,即梯度提升树,简称GBDT,也叫GBRT(Gradient Boosting Regression Tree),也称为Multiple Additive Regression Tree(MART),阿里貌似叫treelink。 首先学习GBDT要有决策树的先验知识。 Gradient Boosting Decision Tree,和随机...
阅读(471) 评论(0)

梯度下降的原理(泰勒证明)及与牛顿法的对比

转载来源于梯度下降法与牛顿法的解释与对比 - happy_lion - 博客园1 梯度下降法 我们使用梯度下降法是为了求目标函数最小值f(X)对应的X,那么我们怎么求最小值点x呢?注意我们的X不一定是一维的,可以是多维的,是一个向量。我们先把f(x)进行泰勒展开:   这里的α是学习速率,是个标量,代表X变化的幅度;d表示的是单位步长,是一个矢量,有方向,单位长度为1,代表X变化的方向。什么意思呢?...
阅读(288) 评论(0)

随机森林与GBDT

版权声明:     本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com。也可以加我的微博: @leftnoteasy   前言:     决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展示(容易将得到的决策树...
阅读(95) 评论(0)

Pandas中iloc和loc以及ix的区别

import pandas as pdimport numpy as npa = np.arange(12).reshape(3,4)print a df = pd.DataFrame(a)print df...
阅读(203) 评论(1)
55条 共4页1 2 3 4 下一页 尾页
    个人资料
    • 访问:16745次
    • 积分:311
    • 等级:
    • 排名:千里之外
    • 原创:8篇
    • 转载:47篇
    • 译文:0篇
    • 评论:1条
    最新评论