机器学习算法
文章平均质量分 88
htuhxf
这个作者很懒,什么都没留下…
展开
-
几种分类的名词意思:Multiclass VS Multilabel VS Multioutput
Multiclass classification打比方你想要把XX归到n_classes(即彼此不同&互斥的classes)。那么来举个栗子:我们有4个classes,分明是"Python"、“Java”、"C++“和"Other language”。此刻我们如果有6个XX,它们对应的classes标签存在数列y里import numpy as npy = np.asarray(['Java', 'C++', 'Other language', 'Python', 'C++', 'Pytho翻译 2021-04-12 01:02:08 · 1499 阅读 · 0 评论 -
ML:产品分析之关联算法介绍 & python案例
Explanation of the Market Basket MoDefinition:List itemIt is a rule-based machine learning method for discovering interesting relatiosn between varianbles in large databases. It is intended to identify strong rules discovered in databases using some m转载 2020-08-12 23:30:12 · 1305 阅读 · 1 评论 -
ML:非监督学习之 聚类_从KMeans到GMM高斯混合聚类
本文节选于《Python Data Science Handbook》by Jake VanderPlas 2016-11-17 First EditionIn Depth: Gaussian Mixture Modelk-means 聚类模型简单、易于理解,但是也因此无法处理比较复杂的聚类问题。尤其是它的非概率论本质,和它用简单的distance-from-cluster-center/中心点距离来进行聚类方法,导致在许多实际情况下模型效果不佳。本文要讨论的GMM/Gaussian Mixture.原创 2020-08-09 16:24:46 · 1828 阅读 · 0 评论 -
时间序列笔记:python中如何用差分消趋势和季节性因素
时间序列模型:严格来说包含4个要素,Trend/趋势、Circle/循环、Seasonal /季节性和不规则要素。但是实际中C和S貌似更多的归为一个。一组时间序列数据有可能包含T和S,这都导致数据集不平稳。因为T会造成均值跟着时间变化而变化,S会造成方差随时间变动。在平稳化时间序列数据中,差分/differencing是种用得广&受欢迎的方法。笔记的目的是为了理解:平稳的时间...翻译 2020-04-07 21:15:17 · 10834 阅读 · 5 评论 -
ML:非监督学习 之 3 层次聚类Hierarchical Clustering with Python and Scikit-learn
by Usman Malik 《Hierarchical Clustering with Python and Scikit-learn》层次聚类是用于无标签数据聚类的一种非监督学习算法。在某些情况下,层次聚类和KMeans的结果非常相似。在用Scikit-Learn实现层次聚类之前,有必要先了解其理论基础。层次聚类的理论依据层次聚类有2种:合并法和分类法,通常使用的是合并法。如图:合并...翻译 2019-10-20 17:42:50 · 1133 阅读 · 0 评论 -
ML:非监督学习之 聚类 之 2 DBSAN聚类(sklearn.cluster.dbscan))
一、算法图解DBSCAN:Dense-Based Spatial Clustering of Applications with Noise(基于密度的&带噪点的空间聚类应用方法)举个栗子:1. 此处潜在设定条件:Min_smaples(或者叫MinPoints / Minpts)= 3;2. 划分为QMP3个点、SOR3个点为圆心的圆内的点,共计2类;剩余的点为Noise(噪点)...原创 2019-10-14 23:38:44 · 1618 阅读 · 0 评论 -
ML:非监督学习之 聚类 之 1 KMeans聚类(sklearn.cluster.KMeans)
一、算法图解首先,指定cluster的个数。上图设k=2(初始点为从图b开始出现的“+”号;其次,把每个数据样本划到到最近的中心点那一cluster;再次,指第一轮化cluster之后,更新中心点(一般是把该cluster的所有数据坐标加起来取平均值);重复划类和中心点更新,知道达到指定的迭代次数或者中心点的移动距离小于给定值或者中心点不在移动;二、sklearn官方文档链接skl...原创 2019-10-14 22:10:58 · 1115 阅读 · 0 评论 -
ML:常见判断类模型好坏指标 - 混淆矩阵 & ROC曲线 & AUC & 其他
混淆矩阵前提概念缩写全拼含义TPTrue Positive预测对了,预测了“Positive”FNFalse Negative预测错了,预测了“Negetive”FPFalse Positive预测错了,预测了“Positive”TNTrue Negtive预测对了,预测了“Negtive”2.指标定义指标定义备注...原创 2019-10-12 07:52:34 · 1674 阅读 · 0 评论 -
ML笔记:分类算法之SVM
注:本文几乎所有东西都不是原创,但鉴于来源复杂不易查明、仅作为个人笔记查询,故不再一一插入链接。如有侵权,立删。1. SVM是什么?Support Vector Machine。一个普通的SVM就是一条直线,用来完美划分linearly separable的2类,即2分类。但这有不是一条普通的直线,这是无数条可以分类的直线当中最完美的,因为它乔海在2个类的中间,距离2个类的点都一样远。而所...转载 2019-10-08 20:38:52 · 857 阅读 · 0 评论 -
ML:决策树的优劣点&常用算法实例
用途:用于分类和回归优点简单易懂,条理清晰,可以用图画出来;需要较少的数据预处理,计算量不大。其他算法常常需要数据标准化、删除空值、创建虚拟变量。需要注意的是,此处模型不支持缺失值;Tree的使用成本(例如预测)等于训练数据集大小的对数。可处理连续数据和分类数据;可处理multi-output问题;可解释性强(与之相反的是神经网络,其结果过程几乎无法解释,是“黑盒”)可以用统...原创 2019-09-29 00:16:39 · 840 阅读 · 0 评论 -
ML - sklearn实现 PCA主成分分析
原文:principal component analysis with scikit-learn by Niraj Verma.我将用Scikit-learn通过最大离散度找出所有的成分,并分离出主成分。首先对原始数据标准化,翻译 2019-07-30 22:26:45 · 3541 阅读 · 0 评论 -
ML - numpy实现 PCA主成分分析
步骤简介数据标准化(对于m*n维数据)计算协方差,得到协方差矩阵计算特征值和特征向量,通过线性变换保留最重要的k个特征值(通常k<n)找出k个特征值对应的特征向量将mn的矩阵乘以n维的特征响亮的特征向量(n...转载 2019-04-16 23:25:13 · 2862 阅读 · 0 评论 -
ML:图解Error = Bias^2 + Var + Irreducible Error
一、怎么举个例子理解误差公式的三个部分?即误差Err / 偏差Bias / 方差Var / 不可避免的标准差之间,是什么关系? 先上结论: 误差来源有三个:Irreducible Error,即不可避免误差部分,刻画了当前任务任何算法所能达到的期望泛化误差的下限,即刻画了问题本身的难度; Bias,即偏差部分,刻画了算法的拟合能力,Bias偏高表示预测函数与真实结果相差很大;...转载 2018-11-28 15:39:09 · 2718 阅读 · 2 评论 -
ML:Bagging、Boosting是啥 & 他们的Err特点
全是网上内容摘录。名称:术语“Bootstrap”怎么起源?引用2011年百度文库没标注作者:术语“Bootstrap”来自短语“to pull oneself up by one’s bootstraps”源自西方神话故事“ The Adventures of Baron Munchausen”,男爵掉到了深湖底,没有工具,所以他 想到了拎着鞋带将自己提起来。Bagging...转载 2018-11-29 18:25:49 · 283 阅读 · 0 评论 -
ML:翻译 - sklearn - 集成学习 之 随机森林
随机森林(Forests of Randomized Tree)分类器官方文件翻译 & Var V.S. Bias数学推导目录一、集成学习(Ensemble methods)的定义和分类二、随机森林random forest 的定义和分类三、sklearn.ensemble.RandomForest_()参数一、集成学习(Ensemble methods)的定义和...翻译 2018-10-16 18:45:22 · 645 阅读 · 0 评论