![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
打卡笔记
文章平均质量分 62
耶耶也
这个作者很懒,什么都没留下…
展开
-
2021-04-19
Task3 特征工程1 特征工程目标对于特征进行进一步分析,并对于数据进行处理完成对于特征工程的分析,并对于数据进行一些图表或者文字总结2 内容介绍常见的特征工程包括:异常处理:通过箱线图(或 3-Sigma)分析删除异常值;BOX-COX 转换(处理有偏分布);长尾截断;特征归一化/标准化:标准化(转换为标准正态分布);归一化(抓换到 [0,1] 区间);针对幂律分布,可以采用公式: log(1+x1+median)log(1+x1+median)数据分桶:等原创 2021-04-19 22:20:59 · 87 阅读 · 0 评论 -
2021-04-16
Datawhale 河北高校数据挖掘比赛-Task2一、 数据分析赛题:零基础入门数据挖掘 - 二手车交易价格预测1.1 分析数据对价格预测的影响程度通过分别绘制特征和价格对应的散点图来判断,该特征对价格的影响,总而剔除无用特征对模型造成的影响。price_index = 15 # 价格的index train_data_path = '../data/used_car_train_20200313.csv' data_train = dataset_deal(train_dat原创 2021-04-16 22:21:32 · 84 阅读 · 0 评论 -
2021-04-12
Datawhale 河北高校数据挖掘比赛-Task1 赛题理解一、 赛题理解赛题:零基础入门数据挖掘 - 二手车交易价格预测1.1 了解赛题- 赛题概况- 数据概况- 预测指标- 分析赛题1.1.1 赛题概况比赛要求参赛选手根据给定的数据集,建立模型,二手汽车的交易价格。赛题以预测二手车的交易价格为任务,数据集报名后可见并可下载,该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含39列变量信息,其中24列为匿名变量。为了保证比赛的公平性,将会从中抽取25万条作原创 2021-04-12 21:33:22 · 114 阅读 · 0 评论