- 博客(17)
- 资源 (36)
- 收藏
- 关注
原创 【机器学习】使用Scikit-Learn库实现K-近邻(KNN)算法
懒惰学习算法的典型例子。KNN仅仅对训练集有记忆功能,不会从其他训练集中通过学习得到一个判别函数 参数化模型和非参数化模型:1、 参数化模型,通过训练数据估计参数:感知机、逻辑回归、线性SVM2、 非参数化模型,无法通过固定参数来进行表征,参数数量随训练数据的增加而递增:核SVM、决策树、KNN KNN基于实例的学习,只对训练数据产生记忆,学习阶
2018-02-06 15:51:29 3997
原创 【机器学习】使用Scikit-Learn库实现随机森林
使用随机森林将弱分类器集成为强分类器随机森林视为多棵决策树的集成。集成学习的基本理念:将弱分类器集成为鲁棒性更强的模型(强分类器)。分类器集成后具备更好的泛化误差,不容易过拟合。 使用随机森林步骤:1、 使用bootstrap抽样法,随机选择n个样本用于训练2、 使用第一步选择的样本构造决策树 1) 不重复的随机选择d个特征
2018-02-06 15:50:01 2286
原创 【机器学习】使用Scikit-Learn库实现决策树
决策树算法:。从树根来说,基于可获得的最大信息增益的特征来对数据进行划分通过迭代处理,在每个子节点上重复此划分过程,直到叶子结点。剪通过枝来限定树的最大深度。 最大信息增益: ˚F为要划分的特征,DP与了Dj分别为父节点和第Ĵ个子节点,我为不纯度衡量标准,NP为父节点中的样本数量,新泽西州为第Ĵ个子节点中的样本数量。 信息增益:父节点的不纯度与所有子节点不纯度总和之差,
2018-02-06 15:47:33 2049
原创 【机器学习】使用Scikit-Learn库的核SVM解决非线性问题
SVM很容易的使用核技巧来解决非线性可分问题 本文使用的数据集和库文件定义在该章节有定义了,链接:http://mp.blog.csdn.net/postedit/79196206建立异或数据集:np.random.seed (0)X_xor = np.random.randn (200, 2)y_xor = np.logical_xor (X_xor[:, 0] >
2018-02-06 15:32:15 2382
原创 【机器学习】使用Scikit-Learn库实现支持向量机(SVM)最大化分类间隔
支持向量机是一种性能强大且广泛应用的学习算法SVM可以看做是感知机的扩展SVM的优化目标是最大化分类间隔,间隔指两个分离的超平面间的距离,最靠近超平面的训练样本为支持向量。使用松弛变量解决非线性可分问题:松弛系数的目的:对于非线性可分的数据来说,需要放松线性约束条件,保证在适当的罚项成本下,对错误分类的情况下进行优化时能够收敛。 取值为正的松弛变量可以简
2018-02-06 15:23:04 1766
原创 【机器学习】使用Scikit-Learn库的L2正则化解决过拟合问题
欠拟合,正常,过拟合图:偏差 - 方差权衡就是通过正则化调整模型的复杂度正则化是解决共线性的一个很有用的方法,可以过滤数据中的噪声,并最终防止过拟合。正则化背后的概念是引入额外的信息(偏差)来对极端数据参数权重做出惩罚。最常用的正则化为L2正则化也称为L2收缩或者权重衰减。L2公式: 正则化的使用方法:在逻辑斯蒂回归的代价函数中加入正则化项,降低
2018-02-06 15:17:59 2096
原创 【机器学习】使用Scikit-Learn库实现逻辑回归(LogisticRegression)
逻辑回归:针对二分类问题的简单但更高效的算法逻辑回归是一个分类模型,不是回归模型。 逻辑回归是针对线性可分问题的一种易于实现且性能优异的分类模型。逻辑回归通过一对多技术可以扩展到多类别分类 几率比:特定事件发生的几率p/(1-p),p为正事件发生的几率。正事件:我们需要预测的事件逻辑函数是几率比的对数函数:log p/(1-p) 预测某一样本属于特定类别的概
2018-02-06 15:13:13 3125
原创 【机器学习】使用Scikit-Learn库实现感知机
分类算法的选择:没有一种分类算法可以在所有可能的应用场景下都表现良好,只有比较了多种学习算法的性能,才能为特定问题挑选出最合适的模型。分类器的性能、计算能力和预测能力,在很大的程度上都依赖于模型的训练的数据。 训练机器学习算法涉及的5个主要步骤:1、 特征选择2、 确定性能评价标准3、 选择分类器及其优化算法4、 对模型性
2018-02-06 15:03:56 2508
原创 【机器学习】建立基于GitHub库的推荐系统引擎
如果不熟悉协同过滤算法的可以查看我的一篇文章:【推荐系统】协同过滤浅入(基于用户/项目/内容/混合方式)代码存放在我的GitHub:https://github.com/935048000/GitHubRecommendationSystem 开始该推荐引擎是用于GitHub的库推荐这里使用GitHub的API,基于协同过滤的推荐系统。这个推荐系统的任务是获得我所有标星的资...
2018-02-05 10:55:31 8090 6
原创 【机器学习】模型的性能评价指标
混淆矩阵混淆矩阵:展示学习算法性能的一种矩阵,一个简单的方阵,展示一个分类器预测结果(真正,真负,假正,假负)的数量图:使用SKlearn的confusion_matrix方法实现混淆矩阵:from sklearn.metrics import confusion_matrixpipe_svc.fit(X_train, y_train)y_pre
2018-02-05 10:44:32 3215
原创 【机器学习】网格搜索优化机器学习模型
机器学习中有两类参数:训练数据学习得到的参数、学习算法需要单独进行优化的参数(超参) 超参优化技巧: 网格搜索:通过寻找最优的超参值的组合以进一步提高模型的性能 通过指定不同的超参列表进行暴力穷举搜索,并计算得到评估每个组合对模型性能的影响,获得参数的最优组合。实现网格搜索调优超参:# 通过网格搜索优化超参数结合k折交叉验证from sklearn.g
2018-02-05 10:34:18 3241
原创 【机器学习】学习曲线和验证曲线
提高学习算法性能的简单但功能强大的判定工具:学习曲线,验证曲线学习曲线学习曲线能判定偏差和方差问题 高偏差与高方差:以上模型应用于训练和交叉验证准确率很低,此模型未能很好打的拟合数据。常用的方法:增加模型参数的数量,或者降低正则化程度。 如果不适合正则化则进行降维。使用SKlearn中的学习曲线函数评估模型:
2018-02-05 10:30:26 12475
原创 【机器学习】K折交叉验证评估模型性能
holdout交叉验证和K折交叉验证可以得到模型的泛化误差的可靠估计(模型在新数据集是的性能表现)。holdout交叉验证holdout交叉验证是机器学习模型泛化性能的一个经典且常用的方法。holdout交叉验证能将最初的数据集分为训练集和测试集 模型选择:对模型的的不同参数设置进行调优和比较的过程,也就是针对给定分类问题,调整参数以寻找最优值(超参)的过程。
2018-02-05 10:25:43 18533 5
原创 【机器学习】基于流水线的工作流
使用SKlearn的Pipline类,拟合出包含任意多个处理步骤的模型,并将模型用于新的数据预测。流水线包含数据预处理还有评估器。代码有两个预处理环节,用于数据缩放和转换的StandardScaler和PCA。评估器为LogisticRegression分类器。工作流:StandardScaler—>PCA—>LogisticRegression流程图:
2018-02-05 09:59:56 1782
原创 【机器学习】数据降维—核主成分分析(Kernel PCA)
本文代码推荐使用Jupyter notebook跑,这样得到的结果更为直观。KPCA:将非线性可分的数据转换到一个适合对齐进行线性分类的新的低维子空间上。 非线性函数:Φ为一个函数,能够对原始的特征进行非线性组合,将原始的d维数据集映射到更高的k维特征空间。利用核PCA可以通过非线性映射将数据转换到一个高维空间中,在高维空间中使用PCA将其映射到另一个低维空间中
2018-02-03 13:33:51 18338 4
原创 【机器学习】数据降维—线性判别分析(LDA)
本文代码推荐使用Jupyter notebook跑,这样得到的结果更为直观。线性判别分析(Linear Discriminant Analysis,LDA)是一种可作为特征抽取的技术LDA可以提高数据分析过程中的计算效率,对于未能正则化的模型,可以降低维度灾难带来的过拟合。 LDA与PCA相似: PCA试图寻找到方差最大的正交的主成分分量轴, LDA发现可以最优化分类的
2018-02-03 13:33:39 10572 13
原创 【机器学习】数据降维—主成分分析(PCA)
本文代码推荐使用Jupyter notebook跑,这样得到的结果更为直观。主成分分析(PCA)特征抽取通常用于提高计算效率,降低维度灾难。主成分分析(Principe component analysis,PCA): 是一种广泛应用于不同领域的无监督线性数据转换技术,作用是降维。 常用领域:股票交易市场数据的探索性分析和信号去噪、生物信息学领域的基因组
2018-02-02 10:44:27 11351 3
机器学习知识手册
2018-10-15
《精益数据分析》埃里克·莱斯
2018-09-25
pycharm2017汉化包
2017-09-18
全面的各类RAID详解
2017-09-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人