数据分析准备：数据向量化、特征值化、归一化处理

最新推荐文章于 2023-10-25 15:51:52 发布

˚天霸动霸Tua

最新推荐文章于 2023-10-25 15:51:52 发布

阅读量7k

点赞数 5

分类专栏： python 文章标签：数据分析向量化特征值化归一化比标准化

本文链接：https://blog.csdn.net/kaikai0803/article/details/84383293

版权

本文介绍了数据分析中数据预处理的重要步骤，包括字典数据的向量化，通过词频实现文本特征值化，中文文本的分词处理，以及数据的归一化和标准化处理。示例代码展示了如何将非数值型数据转换为可分析的形式，并调整数值特征的尺度。

摘要由CSDN通过智能技术生成

希望与热爱编程的人多多交流，共同进步。

字典数据向量化

因为字典数据无法运算、分析，此操作可将字典根据特征生成向量化数据
示例代码：

def dictvec():
    """
    字典数据特征抽取，向量化
    :return:
    """
    # 1 新建向量化器实例
    dic = DictVectorizer(sparse=False)  # sparse是否稀疏
    # 2 调用fit_transform方法，执行向量化
    data = dic.fit_transform([
        {'city': '北京', 'pos': '北方', 'temperature': 100},
        {'city': '上海', 'pos': '东方', 'temperature': 60},
        {'city': '深圳', 'pos': '南方', 'temperature': 30},
        {'city': '重庆', 'pos': '南方', 'temperature': 70},
    ])
    print(dic.get_feature_names())
    print(data)
    # ps: 反向量化，恢复成原始数据形式
    print(dic.inverse_transform(data)[0])

dictvec()