2017年08月_口袋的天空Zard

原创 if name=='main'作用

if __name__==’__main__’的作用当你打开一个.py文件时,经常会在代码的最下面看到if __name__ == '__main__':作用：在cmd 中直接运行.py文件,则name的值是’main‘;C:\Python27\Scripts>python test.py而在import 一个.py文件后,name的值就不是’main‘了;import test从而用if name

2017-08-30 15:31:25 297

原创机器学习笔记(14)——sklearn降维方法举例(RandomProjection,TSVD,t-SNE)

sklearn降维方法举例以datasets.digits数据为例导入相关包import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport timefrom sklearn.datasets import load_digits大样本数据的可视化是一个相对比较麻烦的事情，一

2017-08-28 17:45:23 22093

原创 Windows用git bash上传文件至Github

Windows用git bash上传文件至Github1.准备工作去官网下载安装Github for Windows 安装github客户端,git shell以及git bash，打开git-bash.exe2.进行上传先在Github登录后建立仓库，找到仓库地址同步仓库，就会在该目录下同步远程仓库的所有文件$ git clone https://github.com/...

2017-08-26 12:22:42 1102

转载 Git简介及操作

Git简介及操作版本控制系统本地版本控制系统：采用某种简单的数据库来记录文件的历次更新差异。集中化的版本控制系统(Centralized Version Control Systems，简称 CVCS)：这类系统，诸如 CVS、Subversion(SVN) 以及 Perforce 等，都有一个单一的集中管理的服务器，保存所有文件的修订版本，而协同工作的人们都通过客户端连到这...

2017-08-25 18:12:12 605

原创 Python包和官方库的导入原理

Python包和官方库的导入原理1.安装的python库文件夹的位置对于用pip安装的python库，安装于此路径：sklearn库的位置(举sklearn库为例)：2.__init__.py文件__init__.py 文件的作用是将文件夹变为一个Python模块,Python 中的每个模块的包中，都有__init__.py 文件。通常__init__.py 文件为空，但是我们还可以为它增加其他的功

2017-08-17 14:38:17 3857 1

转载机器学习笔记(13)——PCA主成分分析

PCA主成分分析1.概念PCA通过线性变换将原始数据变换为一组各维度线性无关的表示，可用于提取数据的主要特征分量，常用于高维数据的降维。很多机器学习算法的复杂度和数据的维数有着密切关系，甚至与维数呈指数级关联。当然，这里区区五维的数据，也许还无所谓，但是实际机器学习中处理成千上万甚至几十万维的情况也并不罕见，在这种情况下，机器学习的资源消耗是不可接受的，因此我们必须对数据进

2017-08-16 16:30:29 1936

原创机器学习笔记(12)——Stacking(Stacked generalization)

Stacking (Stacked generalization)1.概念指训练一个模型用于组合(combine)其他各个模型。即首先我们先训练多个不同的模型，然后再以之前训练的各个模型的输出为输入来训练一个模型，以得到一个最终的输出。理论上，Stacking可以表示上面提到的各种Ensemble方法。然而，实际中，我们通常使用单层logistic回归作为组合模型。

2017-08-12 14:40:52 4267

转载机器学习笔记(11)——ROC曲线与AUC

ROC(Receiver Operating Characteristic)AUC(Area Under Curve)ROC与AUC常用来评价一个二值分类器(binary classifier)的优劣1.ROC曲线：只讨论二值分类器。对于分类器，或者说分类算法，评价指标主要有precision，recall，F-score，以及ROC和AUC。下图是一个ROC曲线的

2017-08-11 19:58:08 5885

原创机器学习笔记(10)——Adaboost算法

Adaboost算法1.概念这就是Adaboost的结构，最后的分类器YM" role="presentation">YMYMY_M是由数个弱分类器（weak classifier）组合而成的,相当于最后m个弱分类器来投票决定分类，而且每个弱分类器的“话语权”α不一样。1.初始化所有训练样例的权重为w1i=1N" role="presentation">w1i=1Nw1

2017-08-11 11:15:19 681

原创 pip install 报错问题解决

pip install 报错问题解决有时在用pip install命令安装python库时出现红字报错1.报错：ReadTimeoutError: HTTPSConnectionPool(host=’pypi.python.org’, port=443): Read timed out.Downloading xgboost-0.6a2.tar.gz (1.2MB) 48% |███████

2017-08-09 22:53:34 46328 13

转载机器学习笔记(9)——随机森林算法(RandomForest,RF)

随机森林算法RandomForest1.概念随机森林算法把分类树组合成随机森林，即在变量（列）的使用和数据（行）的使用上进行随机化，生成很多分类树，再汇总分类树的结果。随机森林在运算量没有显著提高的前提下提高了预测精度。随机森林对多元共线性不敏感，结果对缺失数据和非平衡的数据比较稳健，可以很好地预测多达几千个解释变量的作用。2.优缺点RF的主要优点有：

2017-08-08 17:40:40 13118

原创 Kaggle:Titanic问题

Kaggle:Titanic问题相关库函数操作1.pandas的read_csv函数读取csv文件为DataFrame格式from pandas import DataFramedata_train = pd.read_csv("Titanic/train.csv")data_train输出结果：会自动将第一行处理为label2.DataFr

2017-08-06 23:30:33 2363

原创机器学习笔记(8)——集成学习之Bootstrap aggregating(Bagging)装袋算法

Bootstrap aggregating自举汇聚法Bagging装袋法1.概念是一种在原始数据集上通过有放回抽样重新选出S个新数据集来训练分类器的集成技术。也就是说这些新数据集是允许重复的。使用训练出来的分类器集合来对新样本进行分类，然后用多数投票或者对输出求均值的方法统计所有分类器的分类结果，结果最高的类别即为最终标签。为了提高模型的方差(variance, 差

2017-08-06 22:56:07 19074

转载机器学习笔记(7)——集成学习(Ensemble Learning)

集成学习Ensemble Learning1.概念集成学习是指将若干弱分类器组合之后产生一个强分类器。弱分类器（weak learner）指那些分类准确率只稍好于随机猜测的分类器（error rate 集成算法成功的关键在于能保证弱分类器的多样性（diversity）。集成不稳定的学习算法能得到更明显的性能提升。Ensemble方法也比单一模型更容易过拟合。

2017-08-06 22:08:32 1454

原创机器学习笔记(6)——利用sklearn库实现SVM

python scikit-learn库实现SVM1.SVC(Support Vector Classification)支持向量分类基于libsvm实现的（libsvm详情参考或者百科），数据拟合的时间复杂度是数据样本的二次方，这使得他很难扩展到10000个数据集。当输入是多类别时（SVM最初是处理二分类问题的），通过一对一的方案解决，当然也有别的解决办法，比如

2017-08-05 16:02:23 3567

转载机器学习笔记(5)——SMO优化算法(实现SVM)

SMO序列最小化优化算法Sequential minimal optimization优化目标是找到一组最优的αi*。一旦求出这些αi*，就很容易计算出权重向量w*和b，并得到分隔超平面了。1.坐标下降法求解下面问题在这里需要求解m个变量αi" role="presentation">αiαi\alpha_i一般来说是通过梯度下降（这里是求最大

2017-08-05 12:41:39 4296

转载机器学习笔记(4)——支持向量机(SVM)

SVM 支持向量机SupportVectorMachine1. 概念SVM是个二分类的分类模型。也就是说，给定一个包含正例和反例（正样本点和负样本点）的样本集合，支持向量机的目的是寻找一个超平面来对样本进行分割，把样本中的正例和反例用超平面分开，但是不是简单地分看，其原则是使正例和反例之间的间隔最大。学习的目标是在特征空间中找到一个分类超平面wx+b=0，分类面由法向量w和

2017-08-04 10:51:28 2245

icepoint的博客