将连续的浮点数转化成哑变量

最新推荐文章于 2022-07-14 16:37:18 发布

命名强迫症患者

最新推荐文章于 2022-07-14 16:37:18 发布

阅读量272

点赞数

本文链接：https://blog.csdn.net/weixin_38331816/article/details/79023114

版权

图片一

图片二

应用场景：输入为图片一，其中每行都有一个starttime（上线时间）和offlinetime（下线时间）

要求：输出图片二，即创造24个哑变量，其中在线的时间输出特征为1，不在线的时间输出为0。

备注：python 中pandas所带的get_dummies会将整个时间作为一个字符串变量，即只能在头和尾形成哑变量，无法在中间插入数值，为了解决这个问题所以才有了现在这篇博客。

随意创建两个数据的代码

data=pd.DataFrame({'starttime':[pd.to_datetime('2018.1.10 10:00:00'),pd.to_datetime('2018.1.10 8:00:00')],'offlinetime':[pd.to_datetime('2018.1.10 12:00:00'),pd.to_datetime('2018.1.10 14:00:00')]})

辅助函数，效果：contain(1,[1,20,3,1,5,10,3]) 输出 [1,0,0,1,0,0,0]，即第二个参数中是否包含第一个参数

def contain(x,y):
    l=[]
    for s in y:
        if x in s:
            l.append(1)
        else:
            l.append(0)
    return l

思路将两个时间点中的小时变量提取出来做成区间[starttime,offlinetime]，然后针对每一个时间创建一个哑变量

data['detla_time'] = data['starttime'].map(lambda x:str(x.hour)) +','+ data['offlinetime'].map(lambda x:str(x.hour))

data['detla_time_range'] = data['detla_time'].map(lambda x: range(int(x.split(',')[0]),int(x.split(',')[1])+1,1))

for i in range(1,25,1):
data['在',i,'点是否在线'] = contain(i,data.detla_time_range)效果如图片二

感觉内容不是很多，那写一个如果允许直接游历整个数据的方法，思路如下：

同样针对每个样本创建在线时间，然后将其在线时间输出成字典，再做成稀疏的DataFrame，最后用0填充即可。

out_data=[]
for index,rows in data.iterrows():
    out = {}
    online_time = range(rows['starttime'].hour,rows['offlinetime'].hour,1)
    for i in online_time:
        out[str(i)+'点在线'] = 1
    out_data.append(out)
out_data = pd.DataFrame(out_data).fillna(0)

效果图