![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
机器学习&数据科学
文章平均质量分 95
该专栏撰写机器学习相关的知识
如是我闻__一时__
菜鸟一枚,多多指教
展开
-
【Datawhale第25期组队学习】Task05 集成方法
Task05 集成方法呜呜呜,这两天一直在忙着赶毕业论文,这里先直接贴出了【datewhale】的教程,等论文交了我在回看这一小节的知识叭~文章目录Task05 集成方法1、引言2、Feature Bagging3、Isolation Forests4、总结参考资料1、引言在实际场景中,很多数据集都是多维度的。随着维度的增加,数据空间的大小(体积)会以指数级别增长,使数据变得稀疏,这便是维度诅咒的难题。维度诅咒不止给异常检测带来了挑战,对距离的计算,聚类都带来了难题。例如基于邻近度的方法是在所有维度原创 2021-05-23 18:59:57 · 88 阅读 · 0 评论 -
【Datawhale第25期组队学习】Task04:基于相似度的方法
Task04 基于相似度的方法文章目录Task04 基于相似度的方法1 基于距离的方法1.1 基于索引的方法1.2 基于单元格的方法1.3 KNN算法及其实现2 基于密度的方法2.1 基于密度的度量2.2 LOFLOF实战3 总结4 参考资料在本系列的第一篇博客中,我们提到了有基于相似度的异常检测算法,这一个博客中我将对这类算法做具体的阐述。基于相似度的方法一般分类两类:一是基于距离的方法,二是基于密度的方法。1 基于距离的方法 基于距离的方法是一种常见的适用于各种数据域的异常检测算法,它基于最原创 2021-05-18 20:36:56 · 162 阅读 · 1 评论 -
【Datawhale第25期组队学习】Task03:基于线性模型的异常检测
Taks03 基于线性模型的异常检测文章目录Taks03 基于线性模型的异常检测0 写在前面1 概述2 线性回归2.1 基于自变量与因变量的线性回归2.1.1梯度下降法优化目标函数2.1.2最小二乘法的正规方程法优化目标函数2.1.3 两种方法的比较2.2 基于异常检测的线性回归3 主成分分析13.1 原理推导3.2 归一化问题3.3 PCA算法实现4 总结5 参考资料0 写在前面上一个博客中,我们讨论了基于统计学的异常检测算法,其中还通过pyod库展示了两个demo,分别是一元正态分布的例子和HBO原创 2021-05-17 15:45:43 · 181 阅读 · 0 评论 -
【kaggle官方教程英文原版】中级机器学习 7数据泄露
In this tutorial, you will learn what data leakage is and how to prevent it. If you don’t know how to prevent it, leakage will come up frequently, and it will ruin your models in subtle and dangerous ways. So, this is one of the most important concepts for原创 2021-05-15 08:34:29 · 289 阅读 · 3 评论 -
【kaggle官方教程英文原版】中级机器学习 6复合树模型
In this tutorial, you will learn how to build and optimize models with gradient boosting. This method dominates many Kaggle competitions and achieves state-of-the-art results on a variety of datasets.IntroductionFor much of this course, you have made pre原创 2021-05-15 08:33:18 · 195 阅读 · 0 评论 -
【kaggle官方教程英文原版】中级机器学习 5交叉检验
In this tutorial, you will learn how to use cross-validation for better measures of model performance.IntroductionMachine learning is an iterative process.You will face choices about what predictive variables to use, what types of models to use, what ar原创 2021-05-15 08:31:00 · 183 阅读 · 0 评论 -
【kaggle官方教程英文原版】中级机器学习 4管线pipeline
In this tutorial, you will learn how to use pipelines to clean up your modeling code.IntroductionPipelines are a simple way to keep your data preprocessing and modeling code organized. Specifically, a pipeline bundles preprocessing and modeling steps so原创 2021-05-15 08:29:40 · 186 阅读 · 0 评论 -
【kaggle官方教程英文原版】中级机器学习 3类别变量
In this tutorial, you will learn what a categorical variable is, along with three approaches for handling this type of data.IntroductionA categorical variable takes only a limited number of values.Consider a survey that asks how often you eat breakfast原创 2021-05-15 08:28:28 · 219 阅读 · 0 评论 -
【kaggle官方教程英文原版】中级机器学习 2缺失值
In this tutorial, you will learn three approaches to dealing with missing values. Then you’ll compare the effectiveness of these approaches on a real-world dataset.IntroductionThere are many ways data can end up with missing values. For example,A 2 bed原创 2021-05-15 08:26:43 · 342 阅读 · 0 评论 -
【kaggle官方教程英文原版】中级机器学习 1引言
Welcome to Kaggle Learn’s Intermediate Machine Learning micro-course!If you have some background in machine learning and you’d like to learn how to quickly improve the quality of your models, you’re in the right place! In this micro-course, you will accel原创 2021-05-15 08:25:00 · 172 阅读 · 0 评论 -
【Datawhale第25期组队学习】Task02:基于统计学的异常检测算法
Task02:基于统计学的异常检测算法文章目录Task02:基于统计学的异常检测算法0 写在前面1 基于统计学的异常检测算法概述2 参数化方法2.1 基于正态分布的一元异常点检测2.2 基于正态分布的多元异常点检测3 非参数化方法4 基于角度的方法5 HBOS6 总结参考文献0 写在前面上篇文章,我们从异常检测的概念、异常检测方法、异常检测应用、异常检测面临的挑战和未来研究方向等方面对异常检测进行了全方位的介绍。本篇文章,我们将视角回到异常检测算法上来,下面将详细介绍基于统计学的异常检测算法.1原创 2021-05-14 16:19:22 · 378 阅读 · 2 评论 -
【Datawhale第25期组队学习】Task01:异常检测介绍
Task01:异常检测介绍文章目录Task01:异常检测介绍0 写在前面1 异常检测的概念2 异常检测任务的分类2.1 有监督异常检测2.2 无监督异常检测3 常见的异常检测算法3.1 问题定义3.2 异常检测算法综述4 异常检测的实际应用4.1 欺诈行为检测(Fraud Detection)4.2 网络入侵检测(Network Intrusion Detection)4.3 癌细胞检测(Cancer Detection)4.4数据日志和过程日志5 异常检测面临的挑战6 未来的研究方向5参考文献0 写在原创 2021-05-11 09:44:59 · 230 阅读 · 0 评论 -
图解:卷积神经网络数学原理
图解:卷积神经网络数学原理原标题:Gentle Dive into Math Behind Convolutional Neural Networks作者:Piotr Skalski 编辑:Pita翻译:通夜(中山大学)、hard_in(电子科技大学)自动驾驶、智能医疗保健和自助零售这些领域直到最近还被认为是不可能实现的,而计算机视觉已经帮助我们达到了这些事情。如今,拥有自动驾驶汽车或自助杂货店的梦想听起来不再那么遥不可及了。事实上,我们每天都在使用计算机视觉–当我们用面部解锁手机或在社交媒体转载 2020-12-30 20:19:00 · 645 阅读 · 0 评论 -
【机器学习】正则化
彻底搞懂机器学习中的正则化源自:http://www.cnblogs.com/maybe2030/outlier文章目录彻底搞懂机器学习中的正则化LP范数L1范数L2范数L1范数和L2范数的区别DropoutBatch Normalization归一化、标准化&正则化在总结正则化(Regularization)之前,我们先谈谈正则化是什么,为什么要正则化。个人认为正则化这个字眼有点太过抽象和宽泛,其实正则化的本质很简单,就是对某一问题加以先验的限制或约束以达到某种特定目的的一种手段或操原创 2020-12-29 14:36:44 · 337 阅读 · 0 评论 -
【机器学习 | Learning from Networks】网络嵌入(Network Embedding)
来自知乎高赞回答作者:张小磊链接:https://www.zhihu.com/question/270000965/answer/351213729来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。网络表示学习(Network Representation Learning),又名网络嵌入(Network Embedding)、图嵌入(Graph Embedding),它旨在将网络中的节点表示成低维、实值、稠密的向量形式,使得得到的向量形式可以在向量空间中具有表示以.转载 2020-12-26 19:43:14 · 796 阅读 · 0 评论 -
【机器学习】表示学习(Representation Learning)
表征学习在机器学习领域,表征学习(或特征学习)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前,机器学习研究人员需要利用手动特征工程(manual feature learning)等技术从原始数据的领域知识(domain knowledge)建立特征,然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效,但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点,它使得机器不仅能学习到数据的特征,并能利用这些特征来完成一个具体的任转载 2020-12-26 19:17:11 · 2697 阅读 · 0 评论 -
【python数据分析】足球运动员的特征分析
写在前面本文是跟哔哩哔哩的一个教程一步一步实现做的,视频链接献上。【一小时快速入门】python数据科学分析实战 数据集概况数据集包含的是2017年所有活跃的足球运动员本次数据集的来源是kesci,提供者是UstinianName 姓名Nationality 国籍National_Position 国家队位置National_Kit 国家队号码Club 所在俱乐部Club_Position 所在俱乐部位置Club_Kit 俱乐部号码Club_Joining 加入俱乐部时间Co原创 2020-12-22 09:44:14 · 2259 阅读 · 8 评论 -
【python机器学习】感知器算法(基于鸢尾花数据集实现)
写在前面感知器是一种人工神经网络,其模拟生物上的神经元结构感知器是一个二分类器,净输入为:z = W.T*X = w0 + w1x1 + w2x2 + w3x3 + … + wnxn然后通过激活函数将z映射[-1,1] (与阈值theta比较)算法内部只用梯度下降数据集资源本文基于鸢尾花 数据集实现数据集:数据集网盘下载提取码:p2v9读取数据集&数据集处理data = pd.read_csv(r"dataset/iris.arff.csv")# data.head()#原创 2020-12-21 11:00:11 · 2703 阅读 · 0 评论 -
【python机器学习】聚类算法K-means(基于顾客购物订单数据集)
写在前面k-means是一种最流行的聚类算法,属于无监督学习k-means可以在数据集分为相似的组(簇),使得组内数据的相似度较高,组间之间的相似度较低。k-means算法步骤:1.从样本中选择k个点作为初始簇中心2.计算每个样本点到各个簇的距离,将样本划分到距离最近的簇中心对应的簇中。3.根据每个簇中的所有样本,重新计算簇中心,并更新。4.重复步骤2与3,直到簇中心的位置变化小于指定的阈值或者达到最大迭代次数为止本文基于顾客购物订单数据集数据集:数据集网盘下载提取码:p2v9原创 2020-12-21 09:44:35 · 6172 阅读 · 22 评论 -
【python机器学习】逻辑回归算法实现(基于鸢尾花数据集)
注意逻辑回归是分类模型!!!本次实验我们做二分类任务,鸢尾花数据集有三个分类,那我们需要选择两个类。逻辑回归内部也使用梯度下降算法数据集资源本文基于鸢尾花 数据集实现数据集:数据集网盘下载提取码:p2v9数据集简单处理import numpy as npimport pandas as pddata = pd.read_csv(r"dataset/iris.arff.csv")#data# 删除重复记录data.drop_duplicates(inplace=True)#原创 2020-12-20 20:28:44 · 3557 阅读 · 1 评论 -
【python机器学习】线性回归--梯度下降实现(基于波士顿房价数据集)
导入库import numpy as npimport pandas as pd波士顿房价数据集字段说明crim 房屋所在镇的犯罪率zn 面积大于25000平凡英尺住宅所占比例indus 房屋所在镇非零售区域所占比例chas 房屋是否位于河边 如果在河边,值1nox 一氧化氮的浓度rm 平均房间数量age 1940年前建成房屋所在比例dis 房屋距离波士顿五大就业中心的加权距离rad 距离房屋最近的公路tax 财产税收额度ptratio 房屋所在镇师生比例black 计算原创 2020-12-20 16:33:49 · 3519 阅读 · 16 评论 -
【python机器学习】线性回归--最小二乘法实现(基于波士顿房价数据集)
导入库import numpy as npimport pandas as pd波士顿房价数据集字段说明crim 房屋所在镇的犯罪率zn 面积大于25000平凡英尺住宅所占比例indus 房屋所在镇非零售区域所占比例chas 房屋是否位于河边 如果在河边,值1nox 一氧化氮的浓度rm 平均房间数量age 1940年前建成房屋所在比例dis 房屋距离波士顿五大就业中心的加权距离rad 距离房屋最近的公路tax 财产税收额度ptratio 房屋所在镇师生比例black 计算原创 2020-12-19 20:30:53 · 2858 阅读 · 2 评论 -
【python机器学习】KNN算法实现回归(基于鸢尾花数据集)
导入库import numpy as npimport pandas as pd读取数据集data = pd.read_csv(r"dataset/iris.arff.csv")#删除不需要的class列,因为现在进行回归预测,类别信息就没用了。data.drop("class",axis=1,inplace=True)#删除重复的记录data.drop_duplicates(inplace=True)KNN算法实现class KNN: """使用python实现K近邻算法原创 2020-12-19 20:17:35 · 1528 阅读 · 4 评论 -
【python机器学习】KNN算法实现分类(基于鸢尾花数据集)
KNN(k-nearest neighbor)算法,即K近邻算法。当需要表示一个样本(值)时,就使用与该样本最接近的K个邻居来决定。KNN既可以用于分类,也可以用于回归。KNN算法过程:1.从训练集中选择离待预测样本最近的k个样本2.根据这k个样本计算待预测样本的值(属于哪个类别或者一个具体的数值)本文基于鸢尾花 数据集实现数据集准备:import numpy as npimport pandas as pd#数据集准备 鸢尾花数据集#读取鸢尾花数据集,header参数来指定标题的行,默认原创 2020-12-19 09:06:26 · 2343 阅读 · 8 评论 -
机器学习常用术语英语词汇
机器学习常用术语词汇A**activation function **激活函数一种函数(例如ReLU或S 型函数),用于对上一层的所有输入求加权和,然后生成一个输出值(通常为非线性值),并将其传递给下一层。AdaGrad一种先进的梯度下降法,用于重新调整每个参数的梯度,以便有效地为每个参数指定独立的学习速率ROC曲线下面积 (AUC, Area under the ROC Curve)一种会考虑所有可能分类阈值的评估指标。ROC 曲线下面积是,对于随机选择的正类别样本确实为正类别原创 2020-12-03 21:01:22 · 4361 阅读 · 0 评论