数据挖掘
文章平均质量分 90
数据挖掘(分析)
如是我闻__一时__
菜鸟一枚,多多指教
展开
-
【Datawhale第25期组队学习】Task04:基于相似度的方法
Task04 基于相似度的方法文章目录Task04 基于相似度的方法1 基于距离的方法1.1 基于索引的方法1.2 基于单元格的方法1.3 KNN算法及其实现2 基于密度的方法2.1 基于密度的度量2.2 LOFLOF实战3 总结4 参考资料在本系列的第一篇博客中,我们提到了有基于相似度的异常检测算法,这一个博客中我将对这类算法做具体的阐述。基于相似度的方法一般分类两类:一是基于距离的方法,二是基于密度的方法。1 基于距离的方法 基于距离的方法是一种常见的适用于各种数据域的异常检测算法,它基于最原创 2021-05-18 20:36:56 · 330 阅读 · 1 评论 -
【Datawhale第25期组队学习】Task03:基于线性模型的异常检测
Taks03 基于线性模型的异常检测文章目录Taks03 基于线性模型的异常检测0 写在前面1 概述2 线性回归2.1 基于自变量与因变量的线性回归2.1.1梯度下降法优化目标函数2.1.2最小二乘法的正规方程法优化目标函数2.1.3 两种方法的比较2.2 基于异常检测的线性回归3 主成分分析13.1 原理推导3.2 归一化问题3.3 PCA算法实现4 总结5 参考资料0 写在前面上一个博客中,我们讨论了基于统计学的异常检测算法,其中还通过pyod库展示了两个demo,分别是一元正态分布的例子和HBO原创 2021-05-17 15:45:43 · 200 阅读 · 0 评论 -
【kaggle官方教程英文原版】中级机器学习 7数据泄露
In this tutorial, you will learn what data leakage is and how to prevent it. If you don’t know how to prevent it, leakage will come up frequently, and it will ruin your models in subtle and dangerous ways. So, this is one of the most important concepts for原创 2021-05-15 08:34:29 · 301 阅读 · 3 评论 -
【kaggle官方教程英文原版】中级机器学习 6复合树模型
In this tutorial, you will learn how to build and optimize models with gradient boosting. This method dominates many Kaggle competitions and achieves state-of-the-art results on a variety of datasets.IntroductionFor much of this course, you have made pre原创 2021-05-15 08:33:18 · 204 阅读 · 0 评论 -
【kaggle官方教程英文原版】中级机器学习 5交叉检验
In this tutorial, you will learn how to use cross-validation for better measures of model performance.IntroductionMachine learning is an iterative process.You will face choices about what predictive variables to use, what types of models to use, what ar原创 2021-05-15 08:31:00 · 195 阅读 · 0 评论 -
【kaggle官方教程英文原版】中级机器学习 4管线pipeline
In this tutorial, you will learn how to use pipelines to clean up your modeling code.IntroductionPipelines are a simple way to keep your data preprocessing and modeling code organized. Specifically, a pipeline bundles preprocessing and modeling steps so原创 2021-05-15 08:29:40 · 219 阅读 · 0 评论 -
【kaggle官方教程英文原版】中级机器学习 3类别变量
In this tutorial, you will learn what a categorical variable is, along with three approaches for handling this type of data.IntroductionA categorical variable takes only a limited number of values.Consider a survey that asks how often you eat breakfast原创 2021-05-15 08:28:28 · 245 阅读 · 0 评论 -
【kaggle官方教程英文原版】中级机器学习 2缺失值
In this tutorial, you will learn three approaches to dealing with missing values. Then you’ll compare the effectiveness of these approaches on a real-world dataset.IntroductionThere are many ways data can end up with missing values. For example,A 2 bed原创 2021-05-15 08:26:43 · 353 阅读 · 0 评论 -
【kaggle官方教程英文原版】中级机器学习 1引言
Welcome to Kaggle Learn’s Intermediate Machine Learning micro-course!If you have some background in machine learning and you’d like to learn how to quickly improve the quality of your models, you’re in the right place! In this micro-course, you will accel原创 2021-05-15 08:25:00 · 184 阅读 · 0 评论 -
【Datawhale第25期组队学习】Task02:基于统计学的异常检测算法
Task02:基于统计学的异常检测算法文章目录Task02:基于统计学的异常检测算法0 写在前面1 基于统计学的异常检测算法概述2 参数化方法2.1 基于正态分布的一元异常点检测2.2 基于正态分布的多元异常点检测3 非参数化方法4 基于角度的方法5 HBOS6 总结参考文献0 写在前面上篇文章,我们从异常检测的概念、异常检测方法、异常检测应用、异常检测面临的挑战和未来研究方向等方面对异常检测进行了全方位的介绍。本篇文章,我们将视角回到异常检测算法上来,下面将详细介绍基于统计学的异常检测算法.1原创 2021-05-14 16:19:22 · 590 阅读 · 2 评论 -
【Datawhale第25期组队学习】Task01:异常检测介绍
Task01:异常检测介绍文章目录Task01:异常检测介绍0 写在前面1 异常检测的概念2 异常检测任务的分类2.1 有监督异常检测2.2 无监督异常检测3 常见的异常检测算法3.1 问题定义3.2 异常检测算法综述4 异常检测的实际应用4.1 欺诈行为检测(Fraud Detection)4.2 网络入侵检测(Network Intrusion Detection)4.3 癌细胞检测(Cancer Detection)4.4数据日志和过程日志5 异常检测面临的挑战6 未来的研究方向5参考文献0 写在原创 2021-05-11 09:44:59 · 242 阅读 · 0 评论 -
【Datawhale第25期组队学习】Task00 熟悉规则
Task00 熟悉规则作者:张浩堃1 任务task修改群昵称,组队熟悉打卡规则2 时间轴timeline8号上午11:30报名成功中午12点左右,我们8个小伙伴顺利组建了学习小分队,队长是“Bear Brown????”,我们的队名是:“我们不做调包侠”。晚上9:00我们在助教老师的带领下,参加了“开营仪式”,首先在这之前,我简单的观看了Datawhale异常检测的简介视频,在开营仪式中,组长们率先完成自我介绍,随后各位小船员也是如此.我的自我介绍见下:【坐标】:郑州–>西安【原创 2021-05-09 08:57:47 · 127 阅读 · 0 评论 -
【python机器学习】聚类算法K-means(基于顾客购物订单数据集)
写在前面k-means是一种最流行的聚类算法,属于无监督学习k-means可以在数据集分为相似的组(簇),使得组内数据的相似度较高,组间之间的相似度较低。k-means算法步骤:1.从样本中选择k个点作为初始簇中心2.计算每个样本点到各个簇的距离,将样本划分到距离最近的簇中心对应的簇中。3.根据每个簇中的所有样本,重新计算簇中心,并更新。4.重复步骤2与3,直到簇中心的位置变化小于指定的阈值或者达到最大迭代次数为止本文基于顾客购物订单数据集数据集:数据集网盘下载提取码:p2v9原创 2020-12-21 09:44:35 · 6318 阅读 · 22 评论 -
【python机器学习】线性回归--梯度下降实现(基于波士顿房价数据集)
导入库import numpy as npimport pandas as pd波士顿房价数据集字段说明crim 房屋所在镇的犯罪率zn 面积大于25000平凡英尺住宅所占比例indus 房屋所在镇非零售区域所占比例chas 房屋是否位于河边 如果在河边,值1nox 一氧化氮的浓度rm 平均房间数量age 1940年前建成房屋所在比例dis 房屋距离波士顿五大就业中心的加权距离rad 距离房屋最近的公路tax 财产税收额度ptratio 房屋所在镇师生比例black 计算原创 2020-12-20 16:33:49 · 3640 阅读 · 16 评论 -
【python机器学习】线性回归--最小二乘法实现(基于波士顿房价数据集)
导入库import numpy as npimport pandas as pd波士顿房价数据集字段说明crim 房屋所在镇的犯罪率zn 面积大于25000平凡英尺住宅所占比例indus 房屋所在镇非零售区域所占比例chas 房屋是否位于河边 如果在河边,值1nox 一氧化氮的浓度rm 平均房间数量age 1940年前建成房屋所在比例dis 房屋距离波士顿五大就业中心的加权距离rad 距离房屋最近的公路tax 财产税收额度ptratio 房屋所在镇师生比例black 计算原创 2020-12-19 20:30:53 · 2922 阅读 · 2 评论 -
【python机器学习】KNN算法实现回归(基于鸢尾花数据集)
导入库import numpy as npimport pandas as pd读取数据集data = pd.read_csv(r"dataset/iris.arff.csv")#删除不需要的class列,因为现在进行回归预测,类别信息就没用了。data.drop("class",axis=1,inplace=True)#删除重复的记录data.drop_duplicates(inplace=True)KNN算法实现class KNN: """使用python实现K近邻算法原创 2020-12-19 20:17:35 · 1559 阅读 · 4 评论 -
【python机器学习】KNN算法实现分类(基于鸢尾花数据集)
KNN(k-nearest neighbor)算法,即K近邻算法。当需要表示一个样本(值)时,就使用与该样本最接近的K个邻居来决定。KNN既可以用于分类,也可以用于回归。KNN算法过程:1.从训练集中选择离待预测样本最近的k个样本2.根据这k个样本计算待预测样本的值(属于哪个类别或者一个具体的数值)本文基于鸢尾花 数据集实现数据集准备:import numpy as npimport pandas as pd#数据集准备 鸢尾花数据集#读取鸢尾花数据集,header参数来指定标题的行,默认原创 2020-12-19 09:06:26 · 2431 阅读 · 8 评论 -
#决策树python# 计算属性的信息增益
原创 2020-04-19 22:07:10 · 829 阅读 · 0 评论