2018年05月_Shingle_

原创距离度量

特征空间中两个实例点的距离是两个实例点相似程度的反映。假设特征空间X是n维实数向量空间R^n, x_i, x_j ∈ X，最常用的距离度量方法时“闵科夫斯基距离”（Minkowski distance），即为x_i - x_j的Lp范数 ||x_i - x_j||p 。x_i, x_j 的闵科夫斯基距离定义：，这里 p &amp;amp;amp;gt;= 1.当p=2时，称为欧式距离（Eucl...

2018-05-22 00:58:47 1348

原创 K近邻分类

最近邻K-近邻（待会介绍）的一种极端情况。“近朱者赤，近墨者黑”。def distance(p0, p1): # Computes squared euclidean distance return np.sqrt(np.sum((p0-p1)**2))def nn_classify(training_set, training_labels, new_exampl...

2018-05-22 00:57:43 2454

原创机器学习中的文本处理

为了在文本文档中执行机器学习，我们首先需要将文本内容转换为数字特征向量。词袋模型简单有效，通过以下步骤将文本转化为数值向量 -&gt; (分词，计数，规范化和加权)局限性：不能涵盖词语间的关联关系不能正确捕捉否定关系不能捕捉短语和多词表达忽略了词序不能解释潜在的拼写错误或单词派生N-grams代替构建简单的unigrams集合（n=1），可以使用bigram...

2018-05-22 00:55:39 7293

原创机器学习中样本比例不平衡的处理方法

类别不平衡（class-imbalance）是指分类任务中不同类别的训练样例数差别很大的情况。例如有990个正类，10个反例，那么学习方法只需要返回一个永远预测为正类的分类器就可以达到99%的精度。然而这样的学习器是没有价值的，因为它预测不出任何反例。样本比例不平衡，这种现象多是由于数据来源本身造成，如征信问题中往往正样本多。即使原始问题中不同类别的训练样例数目相当，在使用OvR策略后产生...

2018-05-22 00:54:24 3092

原创机器学习中样本缺失值的处理方法

删除忽略有缺失值的样本dropna()填充使用可用特征或相似样本的均值来填充缺失值scikit-learn的Imputer类提供了估算缺失值的基本策略，可以使用缺失值所在的行或列的均值，中位数或最频繁值。这个类还允许不同的缺失值编码。>>> import numpy as np>>> from sklearn.prepr...

2018-05-22 00:27:28 2381

原创机器学习中样本数据预处理

特征缩放X_norm=(X-X_min)/(X_max-X_min )lambda x: (x - x.min()) / (x.max() - x.min())特征标准化Gaussian with zero mean and unit variance. z=(x-μ)/σnumeric_feats = all_X.dtypes[all_X.dtypes != "o...

2018-05-22 00:26:56 2240

原创数据挖掘十大算法 and 算法概述

“数据挖掘十大算法”是IEEE数据挖掘国际会议（ICDM）上的一篇论文，2007年12月在Jonural of Knowledge and Information Systems杂志上发表。根据知识发现和数据挖掘国际会议（KDD）获奖者的问卷调查结果，论文统计除了排名前十的数据挖掘算法。C4.5决策树K-均值（K-mean）支持向量机（SVM）Apriori最大期望算法（EM）Pa...

2018-05-22 00:25:34 1186

原创机器学习中典型工作流程

读取和清洗数据将现实世界中得到的数据（如文本和图像）格式化为算法可以处理的格式（数字特征）。见另一篇Blog：机器学习中样本数据预处理一句话，数据决定了你的任务是成功和失败。探索和理解输入数据通常需要统计学和基础数学知识，引入一个概念：探索性数据分析(Exploratory Data Analysis， EDA )。见Blog：机器学习探索性数据分...

2018-05-22 00:24:31 1425

原创机器学习探索性数据分析的数据类型（补充）

探索性数据分析(Exploratory Data Analysis， EDA )EDA是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索，通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。特别是当我们对这些数据中的信息没有足够的经验，不知道该用何种传统统计方法进行分析时，探索性数据分析就会非常有效。离散属性：若属性值间存在...

2018-05-04 23:48:19 953

Shingle_的博客