数据挖掘
文章平均质量分 70
schwamaths
这个作者很懒,什么都没留下…
展开
-
集成学习-数学基础
作业打卡研究Rosenbrock函数,其定义为f=(x1−a)2+(x2−x12)2f = (x_1-a)^{2} +(x_2-x_1^2)^2f=(x1−a)2+(x2−x12)2问题一:a,b的选择会对函数的凹凸性会产生很大的变化,但是函数的大体形状不变。问题二:求解最优解采用的最速下降法,初始点为(1,1).import numpy as npimport matplotlib.pyplot as pltdef f(x1,x2,a,b): return (a-x1)**2原创 2021-08-17 23:10:51 · 102 阅读 · 0 评论 -
异常检测-基于统计学的方法
1、概述统计学方法对数据的正常性做出假定。它们假定正常的数据对象由一个统计模型产生,而不遵守该模型的数据是异常点。统计学方法的有效性高度依赖于对给定数据所做的统计模型假定是否成立。异常检测的统计学方法的一般思想是:学习一个拟合给定数据集的生成模型,然后识别该模型低概率区域中的对象,把它们作为异常点。即利用统计学方法建立一个模型,然后考虑对象有多大可能符合该模型。根据如何指定和学习模型,异常检测的统计学方法可以划分为两个主要类型:参数方法和非参数方法。参数方法假定正常的数据对象被一个以Θ\Theta原创 2021-01-16 00:46:14 · 357 阅读 · 0 评论 -
异常检测-线性模型
1、2、数据可视化3、线性回归3.1、基于自变量与因变量的线性回归3.1.1、最小二乘法为了简单起见,这里我们一元线性回归为例:Y=∑i=1dai⋅Xi+ad+1Y=\sum_{i=1}^{d} a_{i} \cdot X_{i}+a_{d+1}Y=i=1∑dai⋅Xi+ad+1变量Y为因变量,也就是我们要预测的值;X1...XdX_{1}...X_{d}X1...Xd为一系列因变量,也就是输入值。系数a1...ad+1a_{1}...a_{d+1}a1...ad+1为要学习的原创 2021-01-15 23:55:30 · 305 阅读 · 0 评论 -
异常检测-概述
1、异常检测异常检测(Outlier Detection)是指识别出与正常数据不同的数据,与预期行为差异大的数据。这类数据往往是少数的。1.1、异常的类别点异常指少数个体实例异常,大多数个体实例正常,例如正常人和病人的健康数据指标上下文异常指的是在特定情境下个体实例是异常的,在其他情境下都是正常的,例如在特定时间下的温度突然上升或下降,在特定场景中的快速信用卡交易群体异常指的是在群体集合中的个体实例出现异常的情况,而该个体实例自身可能不是异常,例如社交网络中虚假账原创 2021-01-12 21:56:50 · 627 阅读 · 0 评论 -
数据分析作业涉及的R语言操作集
这个依旧是传送门的集合,实在是没有时间去大量的写博客单因素和多元因素显著性检验该博客涉及的如何将自己的数据集制作为R语言需要的数据集。网上多数博客是使用R语言自带的数据集。选取符合特定条件的行t检验各种分布函数看看这个图大概就理解各个函数的作用了遇到的问题没有"%>%"这个函数library(magrittr)Error in filter(., style == “...原创 2020-04-05 00:12:51 · 663 阅读 · 0 评论 -
特征工程-小tricks(一)
“数据决定机器学习的上限,而算法是尽可能的逼近这个上限”。这里的数据就是指特征工程之后的数据。案例原始数据特征:构造特征:catboost处理类别特征会优于lightGBM,XGB。...原创 2020-03-30 23:25:29 · 194 阅读 · 0 评论 -
二手车价格预测——模型融合
模型融合的理论讲解和些许实战代码模型融合的目标对于多种调参完成的模型进行模型融合。1、本赛题示例原创 2020-03-29 23:49:25 · 2862 阅读 · 0 评论 -
pandas和sklearn的操作函数链接集合
set_index函数和reset_index函数数据的拼接原创 2020-03-28 00:04:29 · 114 阅读 · 0 评论 -
二手车价格预测——建模调参
减少数据占用内存通过调整数据类型,减少内存空间def reduce_mem_usage(df): """ iterate through all the columns of a dataframe and modify the data type to reduce memory usage. """ start_mem = df.m...原创 2020-03-27 16:53:31 · 759 阅读 · 0 评论 -
二手车价格预测-特征工程(Feature Engineering)
1、删除异常值原创 2020-03-26 18:54:28 · 367 阅读 · 0 评论 -
二手车预测第二次打卡
第二次打卡链接内容一内容二原创 2020-03-24 21:46:16 · 113 阅读 · 0 评论 -
二手车价格预测-EDA数据探索(二)
1、研究类别特征和数字特征1.1、数据类型可以使用以下代码进行类别和数字进行分类。但是,这里不能使用该代码,因为这里的类别特征已经进行了脱敏操作,变为int类型。# 这个区别方式适用于没有直接label coding的数据# 这里不适用,需要人为根据实际含义来区分,# 数字特征# numeric_features = Train_data.select_dtypes(include=...原创 2020-03-22 19:24:27 · 364 阅读 · 0 评论 -
二手车价格预测-EDA数据探索(一)
EDA之总览数据## 基础工具import numpy as npimport pandas as pdimport warningsimport matplotlibimport matplotlib.pyplot as pltimport seaborn as snsfrom scipy.special import jnfrom IPython.display import...原创 2020-03-21 23:57:23 · 253 阅读 · 0 评论 -
二手车价格预测-赛题理解
字段FieldDescriptionSaleID交易ID,唯一编码name汽车交易名称,已脱敏regDate汽车注册日期,例如20160101,2016年01月01日brand车型编码,已脱敏brand汽车品牌,已脱敏bodyType车身类型:豪华轿车:0,微型车:1,厢型车:2,大巴车:3,敞篷车:4,双门汽车:5,商务车:6,搅拌...原创 2020-03-21 17:22:53 · 591 阅读 · 0 评论 -
goole-Colab使用记录
导入相关包!apt-get install -y -qq software-properties-common python-software-properties module-init-tools!add-apt-repository -y ppa:alessandro-strada/ppa 2>&1 > /dev/null!apt-get update -qq 2>...原创 2020-03-19 18:48:21 · 196 阅读 · 0 评论 -
datawhale数据竞赛组队学习-比赛总结
数据分析使用describe(),cov()函数查看数据之间的联系,使用折线图查看变量之间的关系。数据清洗处理缺失值,使用平均值,最大值,频次最多的值代替缺失值,甚至可以将缺失值作为新的特征值。异常值处理,可视化处理方式:箱图,散点图,数学处理方法:孤立森林特征工程特征合并:将类似的特征进行合并计算统计特征:对特征进行求平方差,均值等统计量。特征选择:对已经构造的特征进行选取...原创 2020-01-20 22:20:50 · 271 阅读 · 0 评论