机器学习
文章平均质量分 92
不会写作文的李华
由于工作关系,内容暂时没办法更新
展开
-
机器学习算法优缺点及适用场景总结
机器学习算法优缺点及适用场景总结原创 2022-10-12 08:54:14 · 2079 阅读 · 1 评论 -
数据挖掘流程-HCIE-BigData
数据挖掘流程原创 2022-08-02 21:24:09 · 1556 阅读 · 0 评论 -
异常值检测方法汇总
异常检测项目流程前言一、项目流程1.目标确立2.数据准备3.数据分析处理4.模型算法(重点)4.1 传统统计方法4.1.1 3σ准则4.1.2 四分位(箱线图)4.2 机器学习方法(重点)4.2.1 监督学习算法4.2.2 无监督学习算法IsolationForestDBSCANLocal Outlier Factor(LOF)4.2.3 半监督学习算法Local Outlier Factor(L...原创 2020-04-08 17:16:57 · 17986 阅读 · 1 评论 -
XGBoost原理及使用
1、XGBoost算法原理:关于XGBoost算法的原理部分,有兴趣的可以去看XGBoost的论文和陈天奇的PPT。对英文有障碍的朋友可以去看刘建平博客总结的非常好。2、XGBoost库比较:XGBoost有2种Python接口风格。一种是XGBoost自带的原生Python API接口,另一种是sklearn风格的API接口,两者的实现是基本一样的,仅仅有细微的API使用的不同,主要体现...原创 2020-03-23 15:00:59 · 754 阅读 · 0 评论 -
支持向量机(SVM)
支持向量机(SVM)全称Support Vecor Machine,谈及机器学习无论回归还是分类,一定都会拿它进行测试,它是机器学习算法中最受关注的算法之一。这里本文不过多的去研究它的数学推导公式,而是浅尝辄止的去探究一下它的原理和作用,以及在sklearn当如如何高效的使用。想要去推导它数据公式的朋友可以去查看刘建平的博客1、SVM是如何工作的SVM学习的基本想法是求解能够正确划分训练数...原创 2020-03-18 14:07:09 · 925 阅读 · 0 评论 -
模型评估指标(Confusion Matrix、ROC、AUC)
文章目录1、选择合适的模型评估指标的依据2、混淆矩阵(Confusion Matrix)2.1 模型整体效果:准确率2.2 捕捉少数类:精确率(Precision)、召回率(Recall)和F1-score2.2.1 精准率(Precision)2.2.2 召回率(Recall)2.2.3 P-R曲线(Precision Recall Curve)2.2.4 F1-Score2.2.5 sklea...原创 2020-03-13 15:25:30 · 5280 阅读 · 0 评论 -
随机森林 RandomForest
1、集成学习集成学习(ensemble learning)可以说是现在非常火爆的机器学习方法了。它本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。也就是我们常说的“博采众长”。集成学习可以用于分类问题集成,回归问题集成,特征选取集成,异常点检测集成等等。在现在的各种算法竞赛中,随机森林,梯度提升树(GBDT),Xgboost等集成算法的身影也随处可见。更多关于...原创 2020-03-09 13:30:58 · 1990 阅读 · 0 评论 -
数据预处理(sklearn.preprocessing)
前言数据预处理的工具有许多,在我看来主要有两种:pandas数据预处理和scikit-learn中的sklearn.preprocessing数据预处理。前面更新的博客中,我已有具体的根据pandas来对数据进行预处理,原文请点击这里。其中主要知识点包括一下几个方面:数据的集成:merge、concat、join、combine_first;数据类型转换:字符串处理(正则表达式)、数据类...原创 2019-03-11 15:55:53 · 13867 阅读 · 5 评论 -
个人机器学习见解
前言:从本文开始,对于Python将进入一个新的篇章——机器学习。前面已经介绍了如何利用pandas来对数据进行处理和分析(原文在这里)。但是,对于跟高一级别的数据分析和机器学习来说,scikit_learning对于数据的预处理,也有着他的优势。首先还是导入需要用到的包import numpy as npimport pandas as pdimport matplotlib.pyp...原创 2019-02-18 17:51:30 · 571 阅读 · 0 评论 -
决策树(CART)算法总结
1.决策树原理决策树算法重点就在于“决策”和“树”这两个概念,顾名思义决策树是基于树结构来进行决策的,这也恰恰是人们在遇到问题时进行问题梳理的一种很自然的处理机制。决策树的目标是建立分类和回归模型,核心目标是决策树的生长和决策树的修剪。对于决策树的生长算法有:ID3,C5.0,CART,CHAID,QUEST等;对于决策树的修剪方法有:预剪枝,后剪枝。2.决策树优缺点优点:不需要预...原创 2019-02-22 22:06:39 · 5075 阅读 · 2 评论 -
KNN 原理及参数总结
前言:针对一个完整的机器学习框架目前还没有总结出来,所以目前只能总结每一个单独的算法。由于现在研究的重点是算法,所以对于数据的处理,数据的分析和可视化呈现,在现阶段并不进行展示(这样容易陷入纠结和浪费过多时间)。但是,当理解算法的基本原理和实现方法之后,再回过头来从头开始,实现一个完整的机器学习流程。1. KNN 原理KNN是一种即可用于分类又可用于回归的机器学习算法。对于给定测试样本,基于距...原创 2019-01-31 17:02:36 · 21697 阅读 · 1 评论