Python | 记一次模型上线的惨痛教训

最新推荐文章于 2021-10-08 21:42:33 发布

写代码的阿呆

最新推荐文章于 2021-10-08 21:42:33 发布

阅读量797

点赞数

分类专栏：机器学习 Python 文章标签： python

本文链接：https://blog.csdn.net/qq_27782503/article/details/105151952

版权

Python 同时被 2 个专栏收录

86 篇文章 6 订阅

订阅专栏

机器学习

52 篇文章 6 订阅

订阅专栏

记一次模型上线的惨痛教训

前言
演示代码
写在最后-Python如何学习

前言

最近两周一直在忙导师那边一个项目，进展到最后一步模型上线了，但花了2周多才搞定，其中一个原因是代码中有一个bug，导致模型结果一直和之前小样本测试差距较大，经过项目组小伙伴们的一起努力，终于找到了这个很”狡猾"的bug，故总结并和大家进行分享（由于这两周工作强度太大，很多天工作到深夜实在没有精力进行推文更新…）

演示代码

背景

出于对公司数据隐私的保护，以下代码均为演示代码，且为虚拟数据。

假设有如下的数据结构，一列是用户名，一列是该用户消费过的商家所在行业。比如张三在’烧烤/烤五花肉’进行了一笔消费（烤五花肉非常出名的一家烧烤店？hhhh）

import pandas as pd
df = pd.DataFrame({'open_id':['1','2','张三','4','李四'], 'goods':['餐饮','餐饮','烧烤/烤五花肉','餐饮','烧烤/烤五花肉']})
df

	open_id	goods
0	1	餐饮
1	2	餐饮
2	张三	烧烤/烤五花肉
3	4	餐饮
4	李四	烧烤/烤五花肉

需要完成的任务

任务拆解：

需要过滤掉去过‘餐饮’的用户
将其余用户的消费记录写入一个txt,根据’/'进行分词【由于要保留重要的中间结果,所以得产出这一步的txt,而且前期项目实战表明适当输出重要中间结果对于check一些问题起到了非常关键的作用】
读入上述txt,将分词后的内容赋值给相应用户，去掉原来消费记录

# 过滤掉去过‘餐饮’的用户
df_ori = df.drop(index=[0,1,3])
df_ori

	open_id	goods
2	张三	烧烤/烤五花肉
4	李四	烧烤/烤五花肉

# 将其余用户的消费记录写入一个txt,根据'/'进行分词
with open('user_goods.txt', 'w') as f:
    for idx in df_ori.index:
        f.write(df_ori['goods'][idx].replace('/',' '))
        f.write('\n')
f.close()

产出的txt结果见下图：

在这里插入图片描述

读入上述txt：

# 读入上述txt
tmp = pd.read_table('user_goods.txt', header=None, names=['goods'])
tmp

/Users/apple/anaconda3/lib/python3.7/site-packages/ipykernel_launcher.py:2: FutureWarning: read_table is deprecated, use read_csv instead, passing sep='\t'.

	goods
0	烧烤烤五花肉
1	烧烤烤五花肉

将分词后的内容赋值给相应用户，并去掉原来消费记录：

# 将分词后的内容赋值给相应用户，并去掉原来消费记录
import copy
df_res = copy.deepcopy(df_ori)
df_res['goods'] = tmp['goods']
df_res

	open_id	goods
2	张三	NaN
4	李四	NaN

bug浮出水面

上面流程的最后一步，不知大家现在看到问题了么？本身张三应该对应的消费记录为’烧烤烤五花肉’，李四对应的消费记录为’烧烤烤五花肉’，而现在这两位用户的消费记录均为空！ 这是非常严重的问题了，直接导致了用户和消费记录没法对应上，数据从源头就错了，那么后面模型的结果肯定也就不可能好了！那么出现这个bug的原因到底在哪呢？本质上是pandas的索引没有对应上！

原始的表df_ori由于过滤掉一部分数据，所以索引并不是连续的了（2，4），而读取txt后的tmp表的索引是连续的（0，1），所以直接进行整列赋值，根据索引无法匹配上，返回结果为NaN。这是pandas的索引机制的问题。

那么如何解决这个bug呢？

一旦知道了问题，也就简单了，在过滤数据之后记得重新设置一下索引，保证索引的连续性，具体代码见下：

import pandas as pd
df = pd.DataFrame({'open_id':['1','2','张三','4','李四'], 'goods':['餐饮','餐饮','烧烤/烤五花肉','餐饮','烧烤/烤五花肉']})
# 过滤掉去过‘餐饮’的用户
df_ori = df.drop(index=[0,1,3])
# 重置索引 并删除新增加的一列[index]
df_ori = df_ori.reset_index(drop=['index'])
# 将其余用户的消费记录写入一个txt,根据'/'进行分词
with open('user_goods.txt', 'w') as f:
    for idx in df_ori.index:
        f.write(df_ori['goods'][idx].replace('/',' '))
        f.write('\n')
f.close()
# 读入上述txt
tmp = pd.read_table('user_goods.txt', header=None, names=['goods'])
# 将分词后的内容赋值给相应用户，并去掉原来消费记录
import copy
df_res = copy.deepcopy(df_ori)
df_res['goods'] = tmp['goods']
df_res

/Users/apple/anaconda3/lib/python3.7/site-packages/ipykernel_launcher.py:14: FutureWarning: read_table is deprecated, use read_csv instead, passing sep='\t'.

	open_id	goods
0	张三	烧烤烤五花肉
1	李四	烧烤烤五花肉

经过上述的处理，张三和李四也就都还是那个喜欢烧烤的小伙伴了，而不是空了，所以后续推荐是不是可以继续给他两推烧烤，花甲，龙虾呢？（手动狗头）

写在最后-Python如何学习

作为一个Python使用1年多的笔者来说，也还是初学者，所以也仅仅是聊聊自己的一些观点。

软件都是工具，是实现你idea的工具，无论是做一个简单的回归模型，还是搭建一个推荐系统，所以得会。
至于到底是学Python还是学R还是学其余的，都行，但总体来说Python是比较简单且实习工作时用的较多，R语言也还行，但学得好、用的熟练、代码运行效率高肯定都还是要不断地练习，笔者也还在不断努力。
去年12月份在光华参加一个数据可视化的课程的时候，当时的老师提到现在要培养自己多软件使用的技能，比如Python做数据处理建模比较方便，那就用Python，比如绘图用echarts更交互更好看，那就用echarts。故每个软件入个门，后面项目，实习工作会用到的时候就会push你去不断深入学习这个软件
对于Python的学习，建议大家实战式学习，先花2-3天时间快速过一遍基础语法，然后直接找一个网上的项目【比如kaggle】进行实战操作，这样对自己提升最快
对于IDE的选择，建议安装anaconda3，使用jupyter或者Spyder，当然最后项目整体上线的时候，肯定是写一个python脚本或者多个，然后用shell脚本来调度等，jupyter等可以作为测试的notebook。

life is short, please use python!

简单的生活，明亮的世界（微信公众号：土申会）。
在这里插入图片描述