[1.16更新B14特征处理]津南数字制造题目解读及部分思路～～有趣的特征

最新推荐文章于 2021-03-17 03:00:50 发布

weixin_30764883

最新推荐文章于 2021-03-17 03:00:50 发布

阅读量137

点赞数

原文链接：http://www.cnblogs.com/shadow1/p/10295909.html

版权

[1.16更新B14特征处理]津南数字制造题目解读及部分思路～～有趣的特征

Article

onion啦啦啦

2019-01-17 16:03:38

1790

首先声明，我并不能保证这些特征可以上分，每个人处理方式不同结果肯定不一样。

B14特征处理（测了测线上好像可以涨一点）

因为有很多小伙伴私聊我，问我怎么处理缺失值。。。其实我也不知道。。。。今晚之前我都没想过要处理，所以我回答的都是不知道，随便处理了一下。。。哈哈哈

晚上我又仔细看了看。。。处理了一下。。。希望对大家有用吧，其实我开源的方法我自己都没上线测过或者是随便测了测，但是思路给需要的小伙伴参考参考吧。

大家也最好不要私聊私下讨论方案。感觉不太好，其实大家一般问我的，我回复的内容都是我自己乱想的，基本没测过。

处理的步骤和思路都在图和代码里了，应该是还有其他操作的，这种思路小伙伴们可以参考参考。

代码：

<predejavu sans="" mono';font-size:15.0pt;"="">train = train[train['<spanar pl="" ukai="" cn';"="">收率'] > 0.87]
print(len(train))
train.loc[train['B14'] == 40, 'B14'] = 400
train = train[train['B14']>=400]

print(len(train))
train = train[good_cols]
good_cols.remove('<spanar pl="" ukai="" cn';"="">收率')
test = test[good_cols]

test_select = {}
for v in [280, 385, 390, 785]:
print(v)
print(test[test['B14'] == v]['<spanar pl="" ukai="" cn';"="">样本id'])
test_select[v] = test[test['B14'] == v]['<spanar pl="" ukai="" cn';"="">样本id'].index
print(test[test['B14'] == v]['<spanar pl="" ukai="" cn';"="" data-spm-anchor-id="">样本id'].index)
print(test_select[v])</spanar></spanar></spanar></spanar></spanar></predejavu>

<predejavu sans="" mono';font-size:15.0pt;"=""><spanar pl="" ukai="" cn';"=""><spanar pl="" ukai="" cn';"=""><spanar pl="" ukai="" cn';"=""><spanar pl="" ukai="" cn';"=""><spanar pl="" ukai="" cn';"=""><predejavu sans="" mono';font-size:15.0pt;"="">for v in test_select.keys():
if v == 280:
x = 0.947
elif v == 385 or v == 785:
x = 0.879
elif v == 390:
x = 0.89

print(v)
print(test_select[v])
# sub_df.iloc[test_select[v]][1] = x
sub_df.loc[test_select[v], 1] = x</predejavu>
</spanar></spanar></spanar></spanar></spanar></predejavu>

------------------------------------------------------------------------更新分割线--------------------------------------------------------------------------------

Motivation

这是一个化学实验相关的比赛，大家高中做化学实验的时候一定学过要用控制变量法吧。因此本文的特征其实就是化学试验中的变量，所以每次做对比实验的时候，都是固定某些变量，改变其中一个变量，这样来进行化学实验的。

那我们怎么操作才能找到对比实验呢？？？

根据人做实验的惯性思维，或者写代码打比赛的迭代思维。肯定是做完一次实验后，在这次实验的基础上进行调参，调参之后再炼丹，期望得到更好的结果。比赛数据里做实验的人肯定也是这个思路。。毕竟也是人做的实验。所以这也就解释了为什么ID特征很重要。。

如何构造相关特征呢？

我们来想象一下做实验的人，怎么炼丹来找趋势呢？他肯定是改变一个参数，测一测结果。。举个例子，把B14的值改一改，这里B14很可能是某种催化剂，记录一下产率，看看催化剂对实验结果的影响。。很遗憾，Lightgbm这类树模型是学不出两次实验之间改变了什么参数的。因此,我们构造两次对比实验之间参数的差值，就可以知道实验人员在上一次实验的基础上进行了哪些修改，模型就能很好的学到其中的奥秘啦。

具体代码

对ID排序后，求与前一行的差值，求与后一行差值类似。。。

copy_col = ['B12', 'B14','A6', 'B9', 'B10', 'B11']

all = all.sort_values(keep_col, ascending=True)
all['b14_div_a1_a2_a3_a4_a19_b1b2_b12b13'] = all['B14']/(all['A1']+all['A2']+all['A3']+all['A4']+all['A19']+all['B1']*all['B2']+all['B12']*all['B13'])

# all.loc[all['B14']<=360, 'B14'] = all['B14']+140
ids = all['样本id'].values

all_copy_previous_row = all[copy_col].copy()

all_copy_previous_row['time_mean'] = all_copy_previous_row[['B9','B10','B11']].std(axis=1)
all_copy_previous_row.drop(['B9','B10','B11'], axis=1, inplace=True)
all_copy_previous_row = all_copy_previous_row.diff(periods=1)
all_copy_previous_row.columns = [col_+'_difference'+'_previous' for col_ in all_copy_previous_row.columns.values]

all_copy_following_row = all[copy_col].copy()
all_copy_following_row['time_mean'] = all_copy_following_row[['B9','B10','B11']].std(axis=1)
all_copy_following_row.drop(['B9','B10','B11'], axis=1, inplace=True)

all_copy_following_row = all_copy_following_row.diff(periods=-1)
all_copy_following_row.columns = [col_+'_difference'+'_following' for col_ in all_copy_following_row.columns.values]
# all_copy_following_row['样本id_difference_following'] = all_copy_following_row['样本id_difference_following'].abs()
all_copy_following_row['样本id'] = list(ids)

转载于:https://www.cnblogs.com/shadow1/p/10295909.html