Python | 记一次模型上线的惨痛教训

前言

最近两周一直在忙导师那边一个项目,进展到最后一步模型上线了,但花了2周多才搞定,其中一个原因是代码中有一个bug,导致模型结果一直和之前小样本测试差距较大,经过项目组小伙伴们的一起努力,终于找到了这个很”狡猾"的bug,故总结并和大家进行分享(由于这两周工作强度太大,很多天工作到深夜实在没有精力进行推文更新…)

演示代码

背景

出于对公司数据隐私的保护,以下代码均为演示代码,且为虚拟数据。

假设有如下的数据结构,一列是用户名,一列是该用户消费过的商家所在行业。比如张三在’烧烤/烤五花肉’进行了一笔消费(烤五花肉非常出名的一家烧烤店?hhhh)

import pandas as pd
df = pd.DataFrame({'open_id':['1','2','张三','4','李四'], 'goods':['餐饮','餐饮','烧烤/烤五花肉','餐饮','烧烤/烤五花肉']})
df
open_idgoods
01餐饮
12餐饮
2张三烧烤/烤五花肉
34餐饮
4李四烧烤/烤五花肉

需要完成的任务

任务拆解:

  • 需要过滤掉去过‘餐饮’的用户
  • 将其余用户的消费记录写入一个txt,根据’/'进行分词【由于要保留重要的中间结果,所以得产出这一步的txt,而且前期项目实战表明适当输出重要中间结果对于check一些问题起到了非常关键的作用】
  • 读入上述txt,将分词后的内容赋值给相应用户,去掉原来消费记录
# 过滤掉去过‘餐饮’的用户
df_ori = df.drop(index=[0,1,3])
df_ori
open_idgoods
2张三烧烤/烤五花肉
4李四烧烤/烤五花肉
# 将其余用户的消费记录写入一个txt,根据'/'进行分词
with open('user_goods.txt', 'w') as f:
    for idx in df_ori.index:
        f.write(df_ori['goods'][idx].replace('/',' '))
        f.write('\n')
f.close()

产出的txt结果见下图:

在这里插入图片描述

读入上述txt:

# 读入上述txt
tmp = pd.read_table('user_goods.txt', header=None, names=['goods'])
tmp
/Users/apple/anaconda3/lib/python3.7/site-packages/ipykernel_launcher.py:2: FutureWarning: read_table is deprecated, use read_csv instead, passing sep='\t'.
goods
0烧烤 烤五花肉
1烧烤 烤五花肉

将分词后的内容赋值给相应用户,并去掉原来消费记录:

# 将分词后的内容赋值给相应用户,并去掉原来消费记录
import copy
df_res = copy.deepcopy(df_ori)
df_res['goods'] = tmp['goods']
df_res
open_idgoods
2张三NaN
4李四NaN

bug浮出水面

上面流程的最后一步,不知大家现在看到问题了么?本身张三应该对应的消费记录为’烧烤 烤五花肉’,李四对应的消费记录为’烧烤 烤五花肉’,而现在这两位用户的消费记录均为空! 这是非常严重的问题了,直接导致了用户和消费记录没法对应上,数据从源头就错了,那么后面模型的结果肯定也就不可能好了!那么出现这个bug的原因到底在哪呢?本质上是pandas的索引没有对应上!

原始的表df_ori由于过滤掉一部分数据,所以索引并不是连续的了(2,4),而读取txt后的tmp表的索引是连续的(0,1),所以直接进行整列赋值,根据索引无法匹配上,返回结果为NaN。这是pandas的索引机制的问题。

那么如何解决这个bug呢?

一旦知道了问题,也就简单了,在过滤数据之后记得重新设置一下索引,保证索引的连续性,具体代码见下:

import pandas as pd
df = pd.DataFrame({'open_id':['1','2','张三','4','李四'], 'goods':['餐饮','餐饮','烧烤/烤五花肉','餐饮','烧烤/烤五花肉']})
# 过滤掉去过‘餐饮’的用户
df_ori = df.drop(index=[0,1,3])
# 重置索引 并删除新增加的一列[index]
df_ori = df_ori.reset_index(drop=['index'])
# 将其余用户的消费记录写入一个txt,根据'/'进行分词
with open('user_goods.txt', 'w') as f:
    for idx in df_ori.index:
        f.write(df_ori['goods'][idx].replace('/',' '))
        f.write('\n')
f.close()
# 读入上述txt
tmp = pd.read_table('user_goods.txt', header=None, names=['goods'])
# 将分词后的内容赋值给相应用户,并去掉原来消费记录
import copy
df_res = copy.deepcopy(df_ori)
df_res['goods'] = tmp['goods']
df_res
/Users/apple/anaconda3/lib/python3.7/site-packages/ipykernel_launcher.py:14: FutureWarning: read_table is deprecated, use read_csv instead, passing sep='\t'.
open_idgoods
0张三烧烤 烤五花肉
1李四烧烤 烤五花肉

经过上述的处理,张三和李四也就都还是那个喜欢烧烤的小伙伴了,而不是空了,所以后续推荐是不是可以继续给他两推烧烤,花甲,龙虾呢?(手动狗头)

写在最后-Python如何学习

作为一个Python使用1年多的笔者来说,也还是初学者,所以也仅仅是聊聊自己的一些观点。

  • 软件都是工具,是实现你idea的工具,无论是做一个简单的回归模型,还是搭建一个推荐系统,所以得会。
  • 至于到底是学Python还是学R还是学其余的,都行,但总体来说Python是比较简单且实习工作时用的较多,R语言也还行,但学得好、用的熟练、代码运行效率高肯定都还是要不断地练习,笔者也还在不断努力。
  • 去年12月份在光华参加一个数据可视化的课程的时候,当时的老师提到现在要培养自己多软件使用的技能,比如Python做数据处理建模比较方便,那就用Python,比如绘图用echarts更交互更好看,那就用echarts。故每个软件入个门,后面项目,实习工作会用到的时候就会push你去不断深入学习这个软件
  • 对于Python的学习,建议大家实战式学习,先花2-3天时间快速过一遍基础语法,然后直接找一个网上的项目【比如kaggle】进行实战操作,这样对自己提升最快
  • 对于IDE的选择,建议安装anaconda3,使用jupyter或者Spyder,当然最后项目整体上线的时候,肯定是写一个python脚本或者多个,然后用shell脚本来调度等,jupyter等可以作为测试的notebook。

life is short, please use python!

简单的生活,明亮的世界(微信公众号:土申会)。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值