机器学习
西风胡
这个作者很懒,什么都没留下…
展开
-
数据分布不均的解决方法(上采样和下采样)
在机器学习中难免会遇到数据分析分布不均的情况,处理不好会影响模型的训练效果。 这篇文章写的不错。 https://blog.csdn.net/tonydz0523/article/details/84325823 但是这个文章只是对分类问题的y进行处理,但是对于回归问题,由于y值是连续的,所以需要对连续变量进行离散化一下,在进行数据的上采样,以下代码是对数据添加离散化标签 k = 6 w...原创 2019-12-10 16:27:56 · 3349 阅读 · 0 评论 -
连续变量离散化的几种方法
连续变量离散化有三种方法 1.等宽离散化 2.等频离散化 3.利用聚类进行离散化 import numpy as np import pandas as pd #参数初始化 datafile = './data/discretization_data.xls' #读取数据 data = pd.read_excel(datafile) data = data[u'肝气郁结证型系数']....原创 2019-12-10 13:56:10 · 8096 阅读 · 1 评论