大数据挑战赛——人机验证

1、首先对题目进行分析:

      人机轨迹必然是不同的,题目中的特征有样本的编号,随着时间的改变坐标的变化(x,y,t),以及目标位置(x,y)。题目所给训练数据有3000条,但是明显特征很少,我们需要自己去完善特征。

2、通过绘制样例的图像简单分析轨迹的特点,样例中前三个都是正常轨迹,后两个为机器轨迹

通过以下代码来绘制图像


得到的图像如下:

3、特征工程:

(1)添加特征:

分析:对于每一个随着时间变化的点来说,他都有一些描述当前状态的量。比如当前所在的坐标(x,y),当前的时间,当前位置处的速度,加速度,当前位置距离目标的距离,下一个位置与这个位置的距离差值。对于每一个描述状态的量都可以利用起始值,终点值,最大值,最小值,极差,平均值,标准差,离散系数,四分位数,四分差,无偏偏度,无偏峰度等数学概念来描述在整个轨迹中这些量的分布情况。

***(注:其中平均值是用来描述数据集中程度的。标准差用来描述数据离散程度。离散系数是标准差除以平均值,是用来描述离散程度的归一化量度,与标准差有一些区别。四分位数是将数据从小到大排列以后,均分为四分,用来分割的三个点称为Q1,Q2,Q3。四分差是Q3-Q1。无偏偏度是用来描述数据对称性的。无偏峰度是用来描述数据平缓或者陡峭的量,是相对于正态分布而言的。)

【1】坐标特征:这是一个三维的数据,随着时间 t 的变化,x,y也在随着变化。对于每个数据来说(x,y)坐标变化是不同的,因此我们可以引入它的一些坐标特征。

x坐标
起始值 x_start
终点值  x_end
最大值  x_max
最小值 x_min
极差 x_range
均值 x_mean
标准差 x_std
离散系数x_cv
四分位数x_Q1 Q2 Q3
四分差  x_interRan
无偏偏度x_skew
无偏峰度x_kurt 
y坐标
起始值 y_start
终点值  y_end
最大值  y_max
最小值 y_min
极差 y_ptp
均值 y_mean
标准差 y_std
离散系数y_cv
四分位数y_Q1 Q2 Q3
四分差  y_interRan
无偏偏度y_skew
无偏峰度y_kurt
目标点  
x坐标 target_x
y坐标 target_y

【2】时间坐标特征:时间t也是一个变量,他相当于第三维的变量,我们同样可以得到t的坐标特征。包括t的起始值,终点值,最大值,最小值,平均值,极值等等。

起始值 t_start
终点值  t_end
最大值  t_max
最小值 t_min
极差 t_range
均值 t_mean
标准差 t_std
离散系数t_cv
四分位数t_Q1 Q2 Q3
四分差  t_interRan
无偏偏度t_skew
无偏峰度t_kurt

【3】距离特征:每个样本的轨迹除了可以用坐标描述以外,也可以用点与目标点的距离描述,让它与目标点建立联系。其中包括每个点距离目标点的距离、每个点的坐标x距离目标点的x坐标的距离,以及每个点的坐标y距离目标点的y的距离。当然这些描述距离的量也包含上面所有的量。

每个点与目标点距离
起始值 dist_target_start
终点值  dist_target_end
最大值  dist_target_max
最小值 dist_target_min
极差 dist_target_ptp
均值 dist_target_mean
离散系数dist_target_cv
标准差 dist_target_std
四分位数dist_target_Q1 Q2 Q3
四分差  dist_target_interRan
无偏偏度dist_target_skew
无偏峰度dist_target_kurt
每个点的x与目标点x距离
起始值 dist_x_target_start
终点值  dist_x_target_end
最大值  dist_x_target_max
最小值 dist_x_target_min
极差 dist_x_target_range
均值 dist_x_target_mean
离散系数dist_x_target_cv
标准差 dist_x_target_std
四分位数dist_x_target_Q1 Q2 Q3
四分差  dist_x_target_interRan
无偏偏度dist_x_target_skew
无偏峰度dist_x_target_kurt
每个点的y与目标点y距离
起始值 dist_y_target_start
终点值  dist_y_target_end
最大值  dist_y_target_max
最小值 dist_y_target_min
极差 dist_y_target_range
均值 dist_y_target_mean
离散系数dist_y_target_cv
标准差 dist_y_target_std
四分位数dist_y_target_Q1 Q2 Q3
四分差  dist_y_target_interRan
无偏偏度dist_y_target_skew
无偏峰度dist_y_target_kurt

【4】差分特征:差分是数学中的用来描述离散值的变化的一个量。可以得到(x,y)的差分,以及x的差分,y的差分,t 的差分。可以得到相邻两个点之间的距离

两点差分
起始值 diff_start
终点值  diff_end
最大值  diff_max
最小值 diff_min
极差 diff_range
均值 diff_mean
标准差 diff_std
离散系数diff_cv
四分位数diff_Q1 Q2 Q3
四分差  diff_interRan
无偏偏度diff_skew
无偏峰度diff_kurt

x坐标差分
起始值 diff_x_start
终点值  diff_x_end
最大值  diff_x_max
最小值 diff_x_min
极差 diff_x_range
均值 diff_x_mean
标准差 diff_x_std
离散系数diff_x_cv
四分位数diff_x_Q1 Q2 Q3
四分差  diff_x_interRan
无偏偏度diff_x_skew
无偏峰度diff_x_kurt

y坐标差分
起始值 diff_y_start
终点值  diff_y_end
最大值  diff_y_max
最小值 diff_y_min
极差 diff_y_range
均值 diff_y_mean
标准差 diff_y_std
离散系数diff_y_cv
四分位数diff_y_Q1 Q2 Q3
四分差  diff_y_interRan
无偏偏度diff_y_skew
无偏峰度diff_y_kurt

时间差分
起始值 t_diff_start
终点值  t_diff_end
最大值  t_diff_max
最小值 t_diff_min
极差 t_diff_range
均值 t_diff_mean
标准差 t_diff_std
离散系数t_diff_cv
四分位数t_diff_Q1 Q2 Q3
四分差  t_diff_interRan
无偏偏度t_diff_skew
无偏峰度t_diff_kurt

【5】速度特征:包括x轴上的速度分量v1,y轴的速度分量v2,以及和速度v。由于每一点的速度都是变化的,同样可以有他的初始值,终点值,最大最小值等等。

合速度
起始值 v_start
终点值  v_end
最大值  v_max
最小值 v_min
极差 v_range
均值 v_mean
标准差 v_std
离散系数v_cv
四分位数v_Q1 Q2 Q3
四分差  v_interRan
无偏偏度v_skew
无偏峰度v_kurt

x速度
起始值 v_x_start
终点值  v_x_end
最大值  v_x_max
最小值 v_x_min
极差 v_x_range
均值 v_x_mean
标准差 v_x_std
离散系数v_x_cv
四分位数v_x_Q1 Q2 Q3
四分差  v_x_interRan
无偏偏度v_x_skew
无偏峰度v_x_kurt

y速度
起始值 v_y_start
终点值  v_y_end
最大值  v_y_max
最小值 v_y_min
极差 v_y_range
均值 v_y_mean
标准差 v_y_std
离散系数v_y_cv
四分位数v_y_Q1 Q2 Q3
四分差  v_y_interRan
无偏偏度v_y_skew
无偏峰度v_y_kurt

【6】速度差分特征:x轴速度v1的差分,y轴速度v2的差分,以及和速度v的差分。

合速度差分
起始值 v_diff_start
终点值  v_diff_end
最大值  v_diff_max
最小值 v_diff_min
极差 v_diff_range
均值 v_diff_mean
标准差 v_diff_std
离散系数v_diff_cv
四分位数v_diff_Q1 Q2 Q3
四分差 v_diff_interRan
无偏偏度v_diff_skew
无偏峰度v_diff_kurt
x轴分速度差分
起始值 v_diff_x_start
终点值  v_diff_x_end
最大值  v_diff_x_max
最小值 v_diff_x_min
极差 v_diff_x_range
均值 v_diff_x_mean
标准差 v_diff_x_std
离散系数v_diff_x_cv
四分位数v_diff_x_Q1 Q2 Q3
四分差 v_diff_x_interRan
无偏偏度v_diff_x_skew
无偏峰度v_diff_x_kurt
y轴分速度差分
起始值 v_diff_y_start
终点值  v_diff_y_end
最大值  v_diff_y_max
最小值 v_diff_y_min
极差 v_diff_y_range
均值 v_diff_y_mean
标准差 v_diff_y_std
离散系数v_diff_y_cv
四分位数v_diff_y_Q1 Q2 Q3
四分差 v_diff_y_interRan
无偏偏度v_diff_y_skew
无偏峰度v_diff_y_kurt

【7】加速度特征:x轴加速度,y轴加速度,合加速度。

合加速度
起始值 a_start
终点值  a_end
最大值  a_max
最小值 a_min
极差 a_range
均值 a_mean
标准差 a_std
离散系数a_cv
四分位数a_Q1 Q2 Q3
四分差 a_interRan
无偏偏度a_skew
无偏峰度a_kurt

x轴分加速度
起始值 a_x_start
终点值  a_x_end
最大值  a_x_max
最小值 a_x_min
极差 a_x_range
均值 a_x_mean
标准差 a_x_std
离散系数a_x_cv
四分位数a_x_Q1 Q2 Q3
四分差 a_x_interRan
无偏偏度a_x_skew
无偏峰度a_x_kurt

y轴分加速度
起始值 a_y_start
终点值  a_y_end
最大值  a_y_max
最小值 a_y_min
极差 a_y_range
均值 a_y_mean
标准差 a_y_std
离散系数a_y_cv
四分位数a_y_Q1 Q2 Q3
四分差 a_y_interRan
无偏偏度a_y_skew
无偏峰度a_y_kurt

(2)特征选择:

特征选择主要有两种方法:一是根据方差,方差太小说明数据之间差别不大,没什么使用价值。我们可以sklearn中的Variancethreshold方法进行特征的选择。先自己设定一个阙值,当某一特征的方差小于这个阙值时,删除这个特征。

二是根据数据与目标的相关性选择特征:

包装法(wrapper):通过目标函数(通常是预测评分),删除一些特征或者是筛选一些特征。

主要使用递归特征消除法REF:对一个基模型进行多次训练,

集成法(embedded):先选择某个模型进行训练,得到特征的权值系数,从大到小选择特征。

基于惩罚项的特征选择:使用带惩罚项的基模型,除了筛选特征以外也进行了数据降维。使用sklearn.feature_selection中的selectfrommodel再结合带L1惩罚项的回归模型。
基于树模型的特征选择:使用selectfrommodel再结合GDBT模型进行特征选择。
(3)降维:
在上面提到可以用基于惩罚项的特征选择,这样可以直接降维。除此之外最常用的降维方法分为,PCA降维:主成分分析法以及LDA:线性判别分析法。他们的共同点都是将原始的数据映射到低维的空间中。但PCA是使映射后的样本具有更大的发散性,而LDA使样本具有更好的分类性能。所以PCA是一种无监督的降维方法,LDA是监督的降维方法。
4、调参:
虽然一个模型的参数很多,但是需要调的参数只有几个。
在切分训练集之前,先使用learning_curve绘制学习曲线,根据图像选择平稳的区域进行切分。在调参之前使用validation_curve绘制验证曲线,先从曲线上大致判断参数大概的范围,防止过拟合。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值