数据预处理-数据变换-连续属性离散化实现：pandas(0.23)+sklearn(0.19.1)+matplotlib(2.2.2)

最新推荐文章于 2024-03-16 11:56:44 发布

ReddyGo

最新推荐文章于 2024-03-16 11:56:44 发布

阅读量915

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ericsson_liu/article/details/81348193

版权

本文介绍了如何使用pandas(0.23)、sklearn(0.19.1)和matplotlib(2.2.2)进行数据预处理中的连续属性离散化操作。通过纠正源代码中的错误，包括data.reshape到data.values.reshape的修正、sort到sort_values的调整以及pd.rolling_mean到pd.DataFrame.rolling.mean的更新，实现了数据的正确处理。此外，还修正了列表推导式中索引错误，确保离散化过程的准确性。

摘要由CSDN通过智能技术生成

代码来源：Python数据分析与挖掘实战

源代码有如下错误：

line22: 原: data.reshape      修改后: data.values.reshape
line23: 原: sort(0)                  修改后: sort_values(0)
line24: 原: pd.rolling_mean(c, 2).iloc[1:]            修改后: pd.DataFrame.rolling(c, 2).mean().iloc[1:]
line31: 原: [j for i in d[d==j]] 修改后: [i for i in d[d==j]]

import pandas as pd
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

datafile = '../data/discretization_data.xls'
data = pd.read_excel(datafile)
data = data[u'肝气郁结证型系数'].copy()
k = 4

d1 = pd.cut(data, k, labels=range(k))    #等宽离散化，各个类比依次命名为0，1，2，3

#等频率离散化
w = [1.0*i/k for i in range(k+1)]
w = data.describe(percentiles=w)[4:4+k+1]    #使用desc

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

ReddyGo CSDN认证博客专家 CSDN认证企业博客

码龄9年

112: 原创

30万+: 周排名

38万+: 总排名

66万+: 访问

: 等级

5942: 积分

91: 粉丝

183: 获赞

26: 评论

727: 收藏

私信

关注

热门文章

分类专栏

最新评论

Notepad设置sql语法高亮
Nonaka_Ai: 一点用都没有啊
数据预处理-数据变换-小波变换
Zara_10Z: 您好，想问一下如果文件不是mat格式是txt格式应该怎么做
Visual Studio 2013 详细安装教程（安装+注册）
植物三由: 百度网盘链接失效了
numpy版本查询
m0_59563922: D:\pythonProject7\venv\Scripts\python.exe D:/pythonProject7/main.py Traceback (most recent call last): File "D:\pythonProject7\main.py", line 1, in <module> import numpy as np File "D:\pythonProject7\venv\lib\site-packages\numpy\__init__.py", line 155, in <module> from . import random File "D:\pythonProject7\venv\lib\site-packages\numpy\random\__init__.py", line 180, in <module> from . import _pickle File "D:\pythonProject7\venv\lib\site-packages\numpy\random\_pickle.py", line 1, in <module> from .mtrand import RandomState File "mtrand.pyx", line 1, in init numpy.random.mtrand ValueError: builtins.type size changed, may indicate binary incompatibility. Expected 888 from C header, got 880 from PyObject 大佬，报错呀，你知道什么原因吗
安装Vmware-tools时CD/DVD找不到Vmware-tools压缩包
不懂的小白: 感谢

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。