自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 数据预处理—数据转换(1)—数值型数据的处理

4.1.1数值型数据的处理标准化&归一化!数据标准化是一个常用的数据预处理操作,目的是处理不同规模和量纲的数据,使其缩放到相同的数据区间和范围,以减少规模、特征、分布差异等对模型的影响。标准化(Z-Score)Z-Score标准化是基于原始数据的均值和标准差进行的标准化,假设原转换的数据为x,新数据为x′,那么x’=(x-mean)/std,其中mean和std为x所在列的均值...

2019-12-09 14:43:23 1699

原创 数据预处理—数据清洗(3)—重复值处理

3.1.3重复值处理数据去重是处理重复值的主要方法,但如下几种情况慎重去重样本不均衡时,故意重复采样的数据分类模型,某个分类训练数据过少,可以采取简单复制样本的方法来增加样本数量重复记录用户检测业务规则问题事务型数据,尤其与钱相关的业务场景下出现重复数据时,如重复订单,重复出库申请3.1.4数据去重APIdataframe.duplicated() # 判断重...

2019-12-06 22:03:51 3240

原创 数据预处理—数据清洗(2)—异常值(极值)处理

3.1.2异常值(极值)处理处于特定分布区域或范围之外的数据通常会被定义为异常或“噪音”。产生数据“噪音”的原因很多,例如业务运营操作、数据采集问题、数据同步问题等。对异常数据进行处理前,需要先辨别出到底哪些是真正的数据异常。从数据异常的状态看分为两种:由于业务特定运营动作产生的,正常反映业务状态,而不是数据本身的异常规律。不是由于特定的业务动作引起的,而是客观地反映了数据本身分布异常...

2019-12-06 21:57:21 5007

原创 数据预处理—数据清洗(1)—缺失值处理

3.1数据清洗缺失值,异常值和重复值的处理3.1.1缺失值处理数据缺失分类行记录缺失,实际上就是记录丢失数据列值缺失,数据记录中某些列值空缺数据库 NullPython返回对象NonePandas Numpy NaN个别情况下,部分缺失值会使用空字符串代替缺失值处理方式直接删除带有缺失值的行记录(整行删除)或者列字段(整列删除),删除意味着会消减数据特征,不适...

2019-12-06 21:39:24 2920

原创 特征预处理—介绍

特征的预处理1什么是特征在机器学习的背景下,特征是用来解释现象发生的单个特性或一组特性。 当这些特性转换为某种可度量的形式时,它们被称为特征。举个例子,假设你有一个学生列表,这个列表里包含每个学生的姓名、学习小时数、IQ和之前考试的总分数。现在,有一个新学生,你知道他/她的学习小时数和IQ,但他/她的考试分数缺失,你需要估算他/她可能获得的考试分数。在这里,你需要用IQ和study_hou...

2019-12-06 21:26:25 144

原创 业务建模流程

业务建模流程1将业务抽象为分类or回归问题2对有监督类模型选定其目标值(定义标签,得到y)3选取合适的样本,并匹配出全部的信息作为特征的来源※4特征工程 + 模型训练 + 模型评价与调优(相互之间可能会有交互)5输出模型报告6上线与监控...

2019-12-05 17:08:20 732

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除