Datawhale 零基础入门数据挖掘-打卡day·1

自我介绍

你好! 我是一个Python零基础小白。
这是我零基础入门数据挖掘的第一次打卡。

一、 安装Python编辑器

1.本地编辑的我使用的是sublime text :

Python和Sublime的整合

1.在Sublime中执行Python代码,ctrl + b 自动在Sublime内置的控制台中执行
这种执行方式,在某些版本的Sublime中对中文支持不好,并且不能使用input()函数

2.使用SublimeREPL来运行python代码
安装完成,设置快捷键,希望按f5则自动执行当前的Python代码

>   { "keys": ["f5"], "caption": "SublimeREPL:Python","command": "run_existing_window_command", "args":{"id": "repl_python_run","file":
> "config/Python/Main.sublime-menu"}},

以上内容来自培训视频讲解

在这里插入图片描述
这里分享一下中文版sublime 中无法安装Pcakage control 的问题。
链接:解决方案:sublime Text 3 无法安装插件有关问题

建议使用英文网站下载 sublime text ,不然会出现很多奇妙问题。
sublime 进行Python编程的相关设置建议参考 打造python+sublime text 3开发环境
解决sublimeREPL解决input()卡死问题 配置SublimeREPL

2.共享编程

Jupyter Notebooks 是数据科学/机器学习社区内一款非常流行的工具。

在这里插入图片描述

我采用的是傻瓜式安装。即使用Anaconda 发行版来安装 Python 和 Jupyter Notebooks。

![](https://img-blog.csdnimg.cn/20200324132014794.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2JhbjE4MTg=,size_16,color_FFFFFF,t_70
这里是Anacondad的使用界面,未安装的功能是 install,已安装的功能下方是 launch。

其他关于Jupyter Notebooks 的使用可以参考这篇文章 链接: 始于Jupyter Notebooks:一份全面的初学者实用指南.

3.Anaconda + Sublime Text

感谢推荐!!! 我发现了B站北邮的老师讲解的北邮《Python编程与实践》中有将两者结合的方式。就总结到这里了。
视频地址:Python编程与实践
CSDN上的其他大佬的文字图像版在这里:sublime text3装入插件Anaconda

二、数据挖掘初接触

1.赛题详情

A.赛题背景

这次竞赛是Datawhale与天池联合发起的0基础入门系列赛事第一场 —— 零基础入门数据挖掘之二手车交易价格预测大赛。

赛题以二手车市场为背景,要求选手预测二手汽车的交易价格。

链接:零基础入门数据挖掘 - 二手车交易价格预测

B.赛题数据

数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时会对name、model、brand和regionCode等信息进行脱敏。

字段表

链接:零基础入门数据挖掘 - 赛题数据

C.评测标准

评价标准为MAE(Mean Absolute Error)。
enter image description here
MAE越小,说明模型预测得越准确。

2.初步分析

A. 数据挖掘的功能

在这里插入图片描述

这次数据挖掘是对二手车数据进行分析从而能够预测二手车交易金额。说明我们要进行的是预测(Prediction),并且此次题目中还提出这个是个 回归 问题。

B.数据挖掘的步骤

在这里插入图片描述
针对“获取相关知识与技术”这里分享本次集体学习中其他小队智慧的结晶,关于二手车数据的一些准备工作。
链接: 【Overfitting is watching you队】赛题理解

C.参赛大佬经验分享

经验总结 作为切入一道赛题的基础,赛题理解是极其重要的,对于赛题的理解甚至会影响后续的特征工程构建以及模型的选择,最主要是会影响后续发展工作的方向,比如挖掘特征的方向或者存在问题解决问题的方向,对了赛题背后的思想以及赛题业务逻辑的清晰,也很有利于花费更少时间构建更为有效的特征模型,赛题理解要达到的地步是什么呢,把一道赛题转化为一种宏观理解的解决思路。
以下将从多方面对于此进行说明:

1) 赛题理解究竟是理解什么:
理解赛题是不是把一道赛题的背景介绍读一遍就OK了呢?并不是的,理解赛题其实也是从直观上梳理问题,分析问题是否可行的方法,有多少可行度,赛题做的价值大不大,理清一道赛题要从背后的赛题背景引发的赛题任务理解其中的任务逻辑,可能对于赛题有意义的外在数据有哪些,并对于赛题数据有一个初步了解,知道现在和任务的相关数据有哪些,其中数据之间的关联逻辑是什么样的。
对于不同的问题,在处理方式上的差异是很大的。如果用简短的话来说,并且在比赛的角度或者做工程的角度,就是该赛题符合的问题是什么问题,大概要去用哪些指标,哪些指标是否会做到线上线下的一致性,是否有效的利于我们进一步的探索更高线上分数的线下验证方法,在业务上,你是否对很多原始特征有很深刻的了解,并且可以通过EDA来寻求他们直接的关系,最后构造出满意的特征。

2) 有了赛题理解后能做什么: 在对于赛题有了一定的了解后,分析清楚了问题的类型性质和对于数据理解的这一基础上,是不是赛题理解就做完了呢?
并不是的,就像摸清了敌情后,我们至少就要有一些相应的理解分析,比如这题的难点可能在哪里,关键点可能在哪里,哪些地方可以挖掘更好的特征,用什么样得线下验证方式更为稳定,出现了过拟合或者其他问题,估摸可以用什么方法去解决这些问题,哪些数据是可靠的,哪些数据是需要精密的处理的,哪部分数据应该是关键数据(背景的业务逻辑下,比如CTR的题,一个寻常顾客大体会有怎么样的购买行为逻辑规律,或者风电那种题,如果机组比较邻近,相关一些风速,转速特征是否会很近似)。这时是在一个宏观的大体下分析的,有助于摸清整个题的思路脉络,以及后续的分析方向。

3) 赛题理解的-评价指标: 为什么要把这部分单独拿出来呢,因为这部分会涉及后续模型预测中两个很重要的问题:

1. 本地模型的验证方式,很多情况下,线上验证是有一定的时间和次数限制的,所以在比赛中构建一个合理的本地的验证集和验证的评价指标是很关键的步骤,能有效的节省很多时间。
2. 不同的指标对于同样的预测结果是具有误差敏感的差异性的,比如AUC,logloss,
MAE,RSME,或者一些特定的评价函数。是会有很大可能会影响后续一些预测的侧重点。

4) 赛题背景中可能潜在隐藏的条件:
其实赛题中有些说明是很有利益-都可以在后续答辩中以及问题思考中所体现出来的,比如高效性要求,比如对于数据异常的识别处理,比如工序流程的差异性,比如模型运行的时间,比模型的鲁棒性,有些的意识是可以贯穿问题思考,特征,模型以及后续处理的,也有些会对于特征构建或者选择模型上有很大益处,反过来如果在模型预测效果不好,其实有时也要反过来思考,是不是赛题背景有没有哪方面理解不清晰或者什么其中的问题没考虑到。

以上内容引用自: Datawhale 零基础入门数据挖掘-Task1 赛题理解

以上就是我作为一名小白目前所学的知识汇总。感谢阅读,如有错误请在评论区指正感谢各位!!!

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值