8个用Python进行机器学习建模项目的实用建议，让新手小白精准避坑_在做python建模时用哪个模型怎么判断-CSDN博客

本文链接：https://blog.csdn.net/mtbcxx007/article/details/102666312

很多伙伴是接触Python编程入门不久，我们用Python进行机器学习建模项目的时候，每个人都会有自己的一套项目文件管理的习惯，我也有一套方法，是曾经踩过的雷总结出来的，现在在这里分享一下给大家！也希望大家少走弯路！

目录先放出来

项目文件事先做好归档
永远不要手动修改源数据并且做好备份
做好路径的正确配置
代码必要的地方做好备注与说明
加速你的Python循环代码
可视化你的循环代码进度
使用高效的异常捕获工具
要多考虑代码健壮性

1. 项目文件事先做好归档

每次开始一个新工作的时候，以前的我总是贪图方便，Code、Data、文档都集中放在一个文件夹内，看起来很乱，一度让回溯过程十分痛苦，或者是换了部电脑，文件全都运行不行了，需要自行修改路径，十分痛苦。

经过自己一番探索，大家可以大致将项目分成几个子文件夹，code放在主文件夹里。

2. 永远不要手动修改源数据并且做好备份

我们需要对源数据进行好备份，方便我们下一次进行回溯，可以进行下一步的操作或者是对中间步骤的修改，而且，对代码等其他文件也是需要做好备份的，以免出现意外丢失。

这里来自良许Linux 的一篇文章，推荐了4个工具：

Git版本控制系统
Rsync文件备份
Dropbox云存储
Time Machine时光机器

更多的工具介绍和使用我这边就不展开，大家可以去自行了解呗。

3. 做好路径的正确配置

很多同学在写路径的时候都很喜欢直接用绝对路径，虽然一般情况下不会有什么问题，但如果代码共享给其他人学习或者运行的时候，问题就来了，很多情况下都不能直接跑通，

这里建议：

使用相对路径：脚本位于主目录下，其他资源（如数据、第三方包等）在其同级或低级目录下，如 ./data/processed/test1.csv
全局路径配置变量：

在学习过程中有什么不懂得可以加我的
python学习交流扣扣qun，784758214
群里有不错的学习视频教程、开发工具与电子书籍。
与你分享python企业当下人才需求及怎么从零基础学习好python，和学习什么内容
># 设置主目录
HOME_PATH = r'E:ML90615- PROJECT1'
# 读取数据
data = open(HOME_PATH+'/data/processed/test1.csv')
data = pd.read_csv(data)
data.head()

4. 代码必要的地方做好备注与说明

这个我相信大多数人都感同身受了，不信？拿回一个月前自己写的代码看看吧，看一下能看懂多少（如果没有做好备注说明的话）

5. 加速你的Python循环代码

这里推荐云哥（Python与算法之美）的一篇文章：24式加速你的python

收藏起来，多看多几次，养成好习惯呗，这样子你写代码才会越来越快～

6. 可视化你的循环代码进度

这里介绍一个Python库，tqdm，先安装一下：pip install tqdm

这个是一个可以显示循环进度的库，有了它就可以更加运筹帷幄了。

大家可以看下面的例子：

7. 使用高效的异常捕获工具

异常bug定位，以前的我经常也是一条print()函数走到底，虽然说也没什么问题，但效率上还是会比较慢，后来发现了一个叫PySnooper的装饰器，仿佛发现了新大陆。

我们一般debug，都是在我们可能觉得会有问题的地方，去打印输出，看下实际输出了什么，然后思考问题所在，这需要我们去改code，非常细致地改，相比较直接加个装饰器，是十分麻烦的。

大家可以看看Example：

1 import pysnooper
2 @pysnooper.snoop('./file.log')
3 def number_to_bits(number):
4 if number:
5 bits = []
6 while number:
7 number, remainder = divmod(number, 2)
8 bits.insert(0, remainder)
9 return bits
10 else:
11 return [0]
12 number_to_bits(6)

我们把函数每一步的输出都保存为file.log，我们可以直接去看到底哪里出了问题。

8. 要多考虑代码健壮性

何为代码的健壮性,顾名思义，就是可以抵挡得住各种异常场景的测试，异常处理工作由“捕获”和“抛出”两部分组成。“捕获”指的是使用 try … except 包裹特定语句，妥当的完成错误流程处理。而恰当的使用 raise 主动“抛出”异常，更是优雅代码里必不可少的组成部分，下面总结几点供大家参考：

1）知道要传入的参数是什么,类型,个数（异常处理,逻辑判断）

1 def add(a, b):
2 if isinstance(a, int) and isinstance(b, int):
3 return a+b
4 else:
5 return '参数类型错误'
6 print(add(1, 2))
7 print(add(1, 'a'))

2）只做最精准的异常捕获

我们有的时候想着让脚本work才是王道，所以不管三七二十一就搞一个大大的try…except把整块代码包裹起来，但这样很容易把原本该被抛出的 AttibuteError 吞噬了。从而给我们的 debug 过程增加了不必要的麻烦。

所以，我们永远只捕获那些可能会抛出异常的语句块，而且尽量只捕获精确的异常类型，而不是模糊的 Exception。

1 from requests.exceptions import RequestException
2 def save_website_title(url, filename):
3 try:
4 resp = requests.get(url)
5 except RequestException as e:
6 print(f'save failed: unable to get page content: {e}')
7 return False
8 # 这段正则操作本身就是不应该抛出异常的，所以我们没必要使用 try 语句块
9 # 假如 group 被误打成了 grop 也没关系，程序马上就会通过 AttributeError 来
10 # 告诉我们。
11 obj = re.search(r'<title>(.*)</title>', resp.text)
12 if not obj:
13 print('save failed: title tag not found in page content')
14 return False
15 title = obj.group(1)
16 try: with open(filename, 'w') as fp:
17 fp.write(title)
18 except IOError as e:
19 print(f'save failed: unable to write to file {filename}: {e}')
20 return False
21 else:
22 return True

3）异常处理不应该喧宾夺主

像上一条说到的异常捕获要精准，但如果每一个都很精准的话，其实我们的代码里就会有很多try…except语句块，以至于扰乱核心代码，代码整体阅读性。

这里，我们可以利用上下文管理器来改善我们的异常处理流程，简化重复的异常处理逻辑。

1 class raise_api_error:
2 """captures specified exception and raise ApiErrorCode instead
3 :raises: AttributeError if code_name is not valid
4 """
5 def __init__(self, captures, code_name):
6 self.captures = captures
7 self.code = getattr(error_codes, code_name)
8 def __enter__(self):
9 # 该方法将在进入上下文时调用
10 return self
11 def __exit__(self, exc_type, exc_val, exc_tb):
12 # 该方法将在退出上下文时调用
13 # exc_type, exc_val, exc_tb 分别表示该上下文内抛出的
14 # 异常类型、异常值、错误栈
15 if exc_type is None:
16 return False
17 if exc_type == self.captures:
18 raise self.code from exc_val
19 return False

在上面的代码里，我们定义了一个名为 raise_api_error 的上下文管理器，它在进入上下文时什么也不做。但是在退出上下文时，会判断当前上下文中是否抛出了类型为 self.captures 的异常，如果有，就用 APIErrorCode 异常类替代它。

使用上下文管理器后，简洁的代码如下：

1 def upload_avatar(request):
2 """用户上传新头像"""
3 with raise_api_error(KeyError, 'AVATAR_FILE_NOT_PROVIDED'):
4 avatar_file = request.FILES['avatar']
5 with raise_api_error(ResizeAvatarError, 'AVATAR_FILE_INVALID'),
6 raise_api_error(FileTooLargeError, 'AVATAR_FILE_TOO_LARGE'):
7 resized_avatar_file = resize_avatar(avatar_file)
8 with raise_api_error(Exception, 'INTERNAL_SERVER_ERROR'):
9 request.user.avatar = resized_avatar_file
10 request.user.save()
11 return HttpResponse({})

对Python感兴趣或者是正在学习的小伙伴，可以加入我们的Python学习扣qun：784758214，看看前辈们是如何学习的！从基础的python脚本到web开发、爬虫、django、数据挖掘等，零基础到项目实战的资料都有整理。送给每一位python的小伙伴！每天都有大牛定时讲解Python技术，分享一些学习的方法和需要注意的小细节，点击加入我们的 python学习者聚集地

以上就是本文的全部内容，觉得文章还不错的话不妨收藏起来慢慢看，有任何建议或看法欢迎大家在评论区分享讨论！