数据建模
文章平均质量分 97
TianCMCC
这个作者很懒,什么都没留下…
展开
-
数据建模学习笔记 -- 类别不平衡问题
1. 什么是类别不平衡问题:在很多任务中,正负样本数量通常是不平衡的,例如在欺诈、失效检测等任务中,正样本的数量远远多于负样本的数量。在类别不平衡问题中,我们将数量多的类别称为“大类”,数量少的类别成为“小类”。由于类别不平衡问题的数据集中被大类主导,追求高分类精度是毫无意义的。例如在信用卡欺诈任务中,当类别不平衡度为1000时,即正负样本的比例为 1000 : 1,将所有的样本全部分为正样本即可获得 99.99% 的分类精度,虽然分类精度很高,但是无法检测出任何负样本,显然,这样的模型是毫无意义的。原创 2020-12-11 14:26:08 · 2006 阅读 · 1 评论 -
机器学习中的特征分布
一. 什么是特征分布:与样本分布不同,特征分布指的是一个数据集中,某个特征在所有样本上的分布情况。而样本分布指的是在这个数据集中,各个类别样本的分布情况。以鸢尾花(Iris)数据集来举个例子叭:import pandas as pdimport matplotlib.pyplot as pltiris = pd.read_csv('.\iris.csv', usecols=[1, 2, 3, 4, 5])iris.head(5)Sepal LengthSepal WidthPe原创 2020-11-27 14:32:13 · 10032 阅读 · 1 评论 -
时间序列预测----(基于多变量深度模型)
1. 什么是多变量时序预测:多变量时间序列预测问题可以被理解为,利用历史时刻的各项数据来预测下一个时刻的目标数据。2. 实验数据集:在本文中,我使用了北京市空气污染历史监测数据集来进行时序预测实验,那么时序预测任务则是利用过去一段时间所记录的温度、气压、风速以及空气污染程度等数据来预测下一时刻的空气污染程度。数据集下载地址:http://archive.ics.uci.edu/ml/datasets/Beijing+PM2.5+Data数据来源自位于北京的美国大使馆在2010年至2014年共5原创 2020-11-16 11:55:51 · 15452 阅读 · 14 评论