自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 2021-04-19

Task3 特征工程1 特征工程目标对于特征进行进一步分析,并对于数据进行处理完成对于特征工程的分析,并对于数据进行一些图表或者文字总结2 内容介绍常见的特征工程包括:异常处理:通过箱线图(或 3-Sigma)分析删除异常值;BOX-COX 转换(处理有偏分布);长尾截断;特征归一化/标准化:标准化(转换为标准正态分布);归一化(抓换到 [0,1] 区间);针对幂律分布,可以采用公式: log(1+x1+median)log(1+x1+median)数据分桶:等

2021-04-19 22:20:59 87

原创 2021-04-16

Datawhale 河北高校数据挖掘比赛-Task2一、 数据分析赛题:零基础入门数据挖掘 - 二手车交易价格预测1.1 分析数据对价格预测的影响程度通过分别绘制特征和价格对应的散点图来判断,该特征对价格的影响,总而剔除无用特征对模型造成的影响。price_index = 15 # 价格的index train_data_path = '../data/used_car_train_20200313.csv' data_train = dataset_deal(train_dat

2021-04-16 22:21:32 84

原创 2021-04-12

Datawhale 河北高校数据挖掘比赛-Task1 赛题理解一、 赛题理解赛题:零基础入门数据挖掘 - 二手车交易价格预测1.1 了解赛题- 赛题概况- 数据概况- 预测指标- 分析赛题1.1.1 赛题概况比赛要求参赛选手根据给定的数据集,建立模型,二手汽车的交易价格。赛题以预测二手车的交易价格为任务,数据集报名后可见并可下载,该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含39列变量信息,其中24列为匿名变量。为了保证比赛的公平性,将会从中抽取25万条作

2021-04-12 21:33:22 114

原创 项目搭建流程

项目搭建流程一.项目原型设计二.数据库设计(表设计)表必须包含id,gmt_creat,gmt_modified字段三.项目环境搭建1.创建项目结构​ 创建父工程–pom类型:管理依赖版本和放公共依赖(springboot工程)1.在父工程pom文件中修改[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NGyGeR16-1604222591960)(C:\Users\maye\AppData\Roaming\Typora\typora-user-images

2020-11-02 15:55:06 453 2

原创 Swagger测试工具使用

Swagger测试工具使用生成在线接口文档,方便接口测试1.在公共模块common,整合swagger,为所有模块都可进行使用2.common下的pom文件引入依赖<!-- swagger --><dependency> <groupId>io.springfox</groupId> <artifactId>springfox-swagger2</artifactId></dependency>

2020-11-01 19:16:35 987 2

原创 MyBatis-Plus代码生成器使用

MyBatis-Plus代码生成器使用引入依赖:<!-- velocity 模板引擎, Mybatis Plus 代码生成器需要 --><dependency> <groupId>org.apache.velocity</groupId> <artifactId>velocity-engine-core</artifactId></dependency>运行生成代码(Test中),代码如下:impo

2020-11-01 18:05:41 128

原创 分治算法

分治问题学习笔记一.分治策略的思想​ 分治–分而治之,将某问题,分为n个子问题,对n个子问题逐个击破,再对子问题处理结果进行合并,得到最终问题的解。二.步骤​ 分:将问题分成合适个数的子问题(根据问题的规模来考虑子问题的个数,既要考虑到并行计算的 能力,也要考虑结果合并处理的开销);​ 治:将小规模的子问题逐个击破(这一步可以采用 多线程并行计算提高运算速度);​ 合:将解决后的子问题进行合并,得到最终问题的解。三.注意问题​ 1.分成子问题的数量,需要考虑子问题结果合并的开销;

2020-08-19 17:17:22 202

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除