机器学习之特征工程:字典的特征提取总结反思

本文探讨了在机器学习中,如何进行字典特征的提取,通过图例和代码示例展示了利用Python实现的过程。重点强调了采用sparse矩阵形式的优势,特别是在处理大数据时能有效节省内存。
摘要由CSDN通过智能技术生成
2.2 特征工程介绍
        算法 特征工程
        2.2.1 为什么需要特征工程(Feature Engineering)
        2.2.2 什么是特征工程
            sklearn用于 特征工程
            pandas用于 数据清洗、数据处理
                特征抽取/特征提取:将不同种类文本转换为数据类型,让计算机更好处理
                    机器学习算法 - 统计方法 - 数学公式
                        文本类型 -》 数值
                        类型 -》 数值
                    2.3.1 特征提取
                        sklearn.feature_extraction
                    2.3.2 字典特征提取 - 类别 -> one-hot编码
                    原理:字典是输入字典型数据以后,比如输入了三个字典(三个样例),每个字典两个特征值(图一),则最后将三个样本的两个特征值将变成位置变量以及对应值(若特征值等于字符串,则位置对应值1。若为数字,则对应值为数字)。
                    传参模式:[{
   'city': '北京','temperature':100}, {
   'city': '上海','temperature':60}, 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值