特征工程

最新推荐文章于 2021-06-19 22:52:13 发布

WxyangID

最新推荐文章于 2021-06-19 22:52:13 发布

阅读量243

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/WxyangID/article/details/79999474

版权

机器学习专栏收录该内容

22 篇文章 1 订阅

订阅专栏

数据采集、数据格式化、数据清洗、数据采样

数据格式化：确定数据的存储格式

数据清洗：去掉一些脏数据，补充缺省值。

数据采样：样本的正负样本比例是不均衡的，大多数模型对样本的正负比例是敏感的（例如LR），随机采样和分层采样

正负样本不均衡时的处理情况：

正样本》》负样本且量都很大，如5亿个正样本 2万负样本。则采用下采样。从5亿正样本中抽取1/25的量，能达到1:1的效果

正样本》》负样本量都不大：

1.采集更多的数据，拉大时间窗口，可以多采集几天/几周的数据

2.下采样

3.修改损失函数（兼顾负样本）

关于上采样和下采样：

小图像（或称为下采样（subsampled）或降采样（downsampled））的主要目的有两个：1、使得图像符合显示区域的大小；2、生成对应图像的缩略图。

放大图像（或称为上采样（upsampling）或图像插值（interpolating））的主要目的是放大原图像,从而可以显示在更高分辨率的显示设备上。

对图像的缩放操作并不能带来更多关于该图像的信息, 因此图像的质量将不可避免地受到影响。然而，确实有一些缩放方法能够增加图像的信息，从而使得缩放后的图像质量超过原图质量的。

下采样原理：对于一副图像I尺寸为M*N，对其进行s倍下采样，即得到（M/s）*（N/s）尺寸的分辨率图像，当然，s应该是M和N的公约数才可以，如果考虑是矩阵形式的图像，就是把原始图像s*s窗口内的图像变成一个像素，这个像素点的值就是窗口内所有像素的均值。

上采样原理：图像放大几乎都是采用内插值方法，即在原有图像像素的基础上在像素点之间采用合适的插值算法插入新的元素。

插值算法还包括了传统插值，基于边缘图像的插值，还有基于区域的图像插值。

特征处理：常见的以下类型的特征：

数值型。类别型。实践类，文本类。统计类。组合特征。

数值型特征处理方式：

统计值：max min std mean

离散化、hash分桶数值型转换成类别值等等。

幅度调整/归一化：在数据灌入模型之前

数据冗余：部分特征相关度太高，消耗计算性能

噪声：部分特征对预测有负面影响

特征选择：踢出原本特征中和预测结果关系不大的特征。

降维：做特征的计算组合构成新的特征。

特征选择的方式：

过滤型：直接考虑单个特征对结果值之间的影响，

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

WxyangID CSDN认证博客专家 CSDN认证企业博客

码龄8年

119: 原创

7万+: 周排名

38万+: 总排名

50万+: 访问

: 等级

5246: 积分

34: 粉丝

99: 获赞

32: 评论

421: 收藏

私信

关注

热门文章

分类专栏

IDEA 4篇
Ubuntu16.04 27篇
Python 51篇
Java 7篇
数据库 7篇
MySQL 2篇
mongoDB
操作系统 1篇
算法数据结构 2篇
机器学习 22篇
常用 1篇
c语言 3篇
myeclipse 4篇
pycharm 2篇
xshell 2篇
Linux 4篇
计算机网络 1篇
hivesql
spark 1篇
leetcode 2篇

最新评论

import cv2出现“ImportError: DLL load failed: 找不到指定的模块”
yzlcpgl: 博主，你拯救了我查了一天的坑给解决了
pip install opencv问题ImportError: OpenCV loader: missing configuration file: ['config-3.6.py', 'conf
凌晨三点lili: 命令输入在哪啊大哥
GridSearchCV参数
wangyuyang08: 您好，楼主。如果数据中有类型（标签）数据，怎样去保证网格搜索交叉验证GridsearchCV每一折中不同类型数据比例和原始数据比例保持一致，谢谢。
GridSearchCV参数
wangyuyang08: 你好，因为原始数据带有标签，譬如说4种草地植被类型。这样在GridsearchCV的时候怎么保证每一折数据比例与原始数据一致。在GridsearchCV这一步怎样去设置 kflod = StratifiedKFold(n_splits=10, shuffle = True,random_state=7)#将训练/测试数据集划分10个互斥子集，
使用Git往github上提交代码时出现[packet_write_wait connection to xx.xx.xx.xx Broken pipe]错误的解决办法：
SiegfriedG: 果然有用

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。