《 Python 机器学习专题手册》笔记 3

本文详细介绍了Python机器学习中数据预处理的几种关键方法,包括特征缩放至(0,1)范围、特征归一化、特征二值化以及分类特征编码。特征缩放有助于提高模型的鲁棒性,归一化通过L1和L2范式调整特征比例,特征二值化利用先验知识优化概率估算,分类特征编码如one-hot编码则解决分类数据在模型中的使用问题。
摘要由CSDN通过智能技术生成

数据预处理的几种方法

import numpy as np
from sklearn import preprocessing

data = np.array([[ 3, -1.5,  2, -5.4],
                 [ 0,  4,  -0.3, 2.1],
                 [ 1,  3.3, -1.9, -4.3]])

# 去除均值
data_standardized = preprocessing.scale(data)
print( "\nMean =", data_standardized.mean(axis=0))
print( "Std deviation =", data_standardized.std(axis=0))

# 将特征缩放至特定范围内
data_scaler = preprocessing.MinMaxScaler(feature_range=(0, 1))
data_scaled = data_scaler.fit_transform(data)
print( "\nMin max scaled data:\n", data_scaled)

# 归一化
data_normalized = preprocessing.normalize(data, norm='l1')
print( "\nL1 normalized data:\n", data_normalized)

# 特征二值化 
data_binarized = preprocessing.Binarizer(threshold=1.4).transform(data)
print( "\nBinarized data:\n", data_binarized)

# 分类特征编码
encoder = preprocessing.OneHotEncoder()
encoder.fit([[0, 2, 1, 12], [1, 3, 5, 3], [2, 3, 2, 12], [1, 2, 4, 3]])
encoded_vector = encoder.transform([[2, 3, 5, 3]]).toarray()
print( "\nEncoded vector:\n", encoded_vector)

2. 将特征缩放至特定范围内
data_scaler = preprocessing.MinMaxScaler(feature_range=(0, 1))
data_scaled = data_scaler.fit_transform(data)
print( "\nMin max scaled data:\n", data_scaled)
### 显示结果:
Min max scaled data:
 [[1.         0.         1.         0.        ]
 [0.         1.         0.41025641 1.        ]
 [0.33333333 0.87272727 0.         0.14666667]]

可见,处理后数据的特征值在(0,1)之间。

使用这种缩放的目的包括实现特征极小方差的鲁棒性以及在稀疏矩阵中保留零元素。

3.特征归一化
data_normalized = preprocessing.normalize(data, norm='l1')
print( "\nL1 normalized data:\n", data_normalized)

### 结果是:
L1 normalized data:
 [[ 0.25210084 -0.12605042  0.16806723 -0.45378151]
 [ 0.          0.625      -0.046875    0.328125  ]
 [ 0.0952381   0.31428571 -0.18095238 -0.40952381]]

归一化常见的用法之一,是以“L1范式”将数据的属性之和调整成 1。

根据有限的验算,“L2范式”与“L1范式”归一化的结果不同。

4. 特征二值化
data_binarized = preprocessing.Binarizer(threshold=1.4).transform(data)
print( "\nBinarized data:\n", data_binarized)

### 结果是:
Binarized data:
 [[1. 0. 1. 0.]
 [0. 1. 0. 1.]
 [0. 1. 0. 0.]]

如果有这些数据的先验知识,特征二值化可以帮助概率估算。

5. 分类特征编码
encoder = preprocessing.OneHotEncoder()
encoder.fit([[0, 2, 1, 12], [1, 3, 5, 3], [2, 3, 2, 12], [1, 2, 4, 3]])
encoded_vector = encoder.transform([[2, 3, 5, 3]]).toarray()
print( "\nEncoded vector:\n", encoded_vector)

### 结果是:
Encoded vector:
 [[0. 0. 1. 0. 1. 0. 0. 0. 1. 1. 0.]]

在机器学习中,特征经常不是数值型的而是分类型的。举个例子,一个人可能有 ["male", "female"] , ["from Europe", "from US", "from Asia"] , ["uses Firefox", "uses Chrome", "uses Safari", "uses Internet Explorer"] 等分类的特征。这些特征能够被有效地编码成整数,比如 ["male", "from US", "uses Internet Explorer"] 可以被表示为 [0, 1, 3] , ["female", "from Asia", "uses Chrome"] 表示为 [1, 2, 1] 。

这个整数特征并不能在scikit-learn的估计器中直接使用,因为这样的连续输入,估计器会认为类别之间是有序的,但实际却是无序的。(例如:浏览器的类别数据则是任意排序的)
一种将分类特征转换为能够被scikit-learn中模型使用的编码是one-of-K或one-hot编码,在 OneHotEncoder 中实现。这个类使用 m 个可能值转换为 m 值化特征,将分类特征的每个元素转化为一个值。




























  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
GeoPandas是一个开源的Python库,旨在简化地理空间数据的处理和分析。它结合了Pandas和Shapely的能力,为Python用户提供了一个强大而灵活的工具来处理地理空间数据。以下是关于GeoPandas的详细介绍: 一、GeoPandas的基本概念 1. 定义 GeoPandas是建立在Pandas和Shapely之上的一个Python库,用于处理和分析地理空间数据。 它扩展了Pandas的DataFrame和Series数据结构,允许在其中存储和操作地理空间几何图形。 2. 核心数据结构 GeoDataFrame:GeoPandas的核心数据结构,是Pandas DataFrame的扩展。它包含一个或多个列,其中至少一列是几何列(geometry column),用于存储地理空间几何图形(如点、线、多边形等)。 GeoSeries:GeoPandas中的另一个重要数据结构,类似于Pandas的Series,但用于存储几何图形序列。 二、GeoPandas的功能特性 1. 读取和写入多种地理空间数据格式 GeoPandas支持读取和写入多种常见的地理空间数据格式,包括Shapefile、GeoJSON、PostGIS、KML等。这使得用户可以轻松地从各种数据源中加载地理空间数据,并将处理后的数据保存为所需的格式。 2. 地理空间几何图形的创建、编辑和分析 GeoPandas允许用户创建、编辑和分析地理空间几何图形,包括点、线、多边形等。它提供了丰富的空间操作函数,如缓冲区分析、交集、并集、差集等,使得用户可以方便地进行地理空间数据分析。 3. 数据可视化 GeoPandas内置了数据可视化功能,可以绘制地理空间数据的地图。用户可以使用matplotlib等库来进一步定制地图的样式和布局。 4. 空间连接和空间索引 GeoPandas支持空间连接操作,可以将两个GeoDataFrame按照空间关系(如相交、包含等)进行连接。此外,它还支持空间索引,可以提高地理空间数据查询的效率。
Python机器学习手册》是一本涵盖了Python机器学习相关知识的重要参考书。这本书主要包含了机器学习的基本概念、算法和应用实例。 首先,这本书对机器学习的基本概念进行了清晰的介绍。它从机器学习的定义、基本原理和分类开始,帮助读者全面了解机器学习的基础知识。同时,它还介绍了机器学习的一些核心概念,如监督学习、无监督学习、强化学习等,帮助读者建立起对机器学习的整体认识。 其次,这本书详细讲解了各种常见的机器学习算法。例如,它介绍了线性回归、逻辑回归、决策树、支持向量机、朴素贝叶斯等算法的原理和应用场景,帮助读者了解不同算法的优缺点及适用范围。同时,这本书还涵盖了深度学习相关内容,如神经网络、卷积神经网络和循环神经网络等,让读者能够全面掌握不同类型的机器学习算法。 此外,这本书还提供了大量的实战案例和代码示例,帮助读者深入理解机器学习的应用。读者可以通过这些实例了解机器学习在图像识别、文本分类、推荐系统等领域的具体应用方法。同时,书中的代码示例也有助于读者在实际应用中快速上手,提升自己的实践能力。 总之,这本《Python机器学习手册》是一本全面介绍Python机器学习知识的好书。它不仅可以作为初学者入门的指南,还能作为资深开发者的参考手册。通过阅读这本书,读者可以系统地学习和掌握机器学习的基本概念、算法和实践技巧,提升自己在机器学习领域的能力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值