数据挖掘分析
数据挖掘+数据分析
一只勤奋爱思考的猪
爱记录、爱分享、爱学习、希望多多留下自己思考过疯狂过的痕迹!
展开
-
判断是否有统计意义/差异具有显著性/具有显著差异/零假设(希望证明为错误的假设)/卡方检验
关于统计学里面的P值,与定义的a是很有关系的,只有根据定义好的a,去判断P值是否有统计学意义。 以上是个人的一些理解。另外还想补充一下p值的具体含义(自己学的时候也总是不好理解): 就用p<0.05与p<0.01相比较: 1)p值通常是和a(阿发)相联系比较的。(a就是允许犯错误的概率,一般在做假设检验之前先定好) 2)p&amp原创 2018-07-09 15:29:25 · 81018 阅读 · 1 评论 -
天池二手车价格预测--建模与调参
这里写目录标题模型选型模型调参1 模型选型2 模型调参结果模型选型模型调参1 模型选型采用了xgboost和lightGBM以及它俩的加权模型2 模型调参主要对叶子节点数,学习率以及估计器参数进行调整 def xgb_model_fit(self, X_train, X_test, y_train, y_test,alg, use...原创 2020-04-01 21:52:16 · 642 阅读 · 0 评论 -
天池二手车价格预测-特征工程
天池二手车价格预测-特征工程特征工程(1)删除分布严重不平衡的特征(2)对预测值进行对数正态转化(3)针对日期特征进行分桶(按年、月)统计(4)针对两个日期字段进行间隔天数计算(5)构造品牌-价格的量化特征(最大、最小、平均值、方差)(6)对功率字段进行异常值检测(7)构造功率与价格的量化特征(8)针对地区编码进行处理(9)代码实现(10)结果特征工程(1)删除分布严重不平衡的特征(2)对预...原创 2020-03-28 16:24:12 · 683 阅读 · 0 评论 -
天池二手车价格预测-EDA-数据探索性分析
EDA-数据探索性分析1、加载数据2、枚举特征分类统计3、数字特征可视化4、特征扩充5、数字特征异常值检测6、正态分布检测7、对数转化图形对比8、对数正态转化9、数字特征异常值检测(正态变换后)10、特征选择(根据数据分布)11、特征选择(l岭回归)12、特征选择(逐步回归)13、特征选择(xgboost)EDA-数据探索性分析实现思路,按目录步骤实现如下:步骤1,...原创 2020-03-26 16:48:43 · 474 阅读 · 0 评论 -
零基础入门数据挖掘 - 二手车交易价格预测-数据探索
零基础入门数据挖掘 - 二手车交易价格预测-part1赛题理解赛题以二手车市场为背景,要求根据所给的二手车预测二手汽车的交易价格,这是一个典型的回归问题熟悉数据及评价标准一 、赛题数据该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同...原创 2020-03-21 18:21:21 · 757 阅读 · 0 评论