机器学习篇

最新推荐文章于 2024-09-14 20:08:20 发布

JarvisAI

最新推荐文章于 2024-09-14 20:08:20 发布

阅读量141

点赞数

分类专栏：算法文章标签：机器学习 python

本文链接：https://blog.csdn.net/JarvisAI/article/details/106745861

版权

2 篇文章 0 订阅

订阅专栏

解释：

TF * IDF = 重要性程度

TfidfVecotrizer(stop_words = None, …)
返回词的权重矩阵

数值型数据：标准缩放
- 归一化
- 标准化
类别型数据：one-hot编码
时间类型：时间的切分

sklearn.preprocessing

归一化
- 特定：通过对原始数据进行变换把数据映射到默认为[0, 1]之间
- 公式
  
  注：作用于每一列，max为一列的最大值，min为一列的最小值，那么为最终结果，mx，mi分别为指定区间.默认mx为1，mi为0
sklearn归一化API：sklearn.preprocessing.MinMaxScaler
语法:
MinMaxScalar(feature_range=(0, 1)…)
- 每个特征缩放到给定范围（默认[0, 1]）
MinMaxScalar.fit_transform(X)
- X：numpy array 格式的数据[n_samples, n_features]
- 返回值：转换后的形状相同的array
归一化步骤：
- 实例化MinMaxScalar
- 调用fit_transform
目的：使得一个特征对最终结果不会造成更大影响
注意：在特定场景下最大值最小值是变化的，另外，最大值与最小值非常容易受异常点影响，所以这种方法鲁棒性（稳定性）较差，只适合传统精确小数据场景