pandas.Dataframe 训练数据集和测试数据集分裂方法

最新推荐文章于 2025-04-09 14:15:04 发布

菜鸟分析师

最新推荐文章于 2025-04-09 14:15:04 发布

阅读量6k

点赞数 6

分类专栏： python学习系列

本文链接：https://blog.csdn.net/mengdiefeixumyname/article/details/89097140

版权

python学习系列专栏收录该内容

23 篇文章

订阅专栏

在深度学习或者机器学习训练时，总会对现有数据进行随机采样，分裂出训练数据集和测试数据集，下面就几种情况进行分析：

原始数据集本身随机排列

倘若原始数据集本身是随机排列的话，可以直接采样下面的方式实现

from sklearn.model_selection import train_test_split
df_train,df_test = train_test_split(df,test_size = 0.2)

原始数据集按照不同label顺序排列

按照原来label顺序排列的话，容易对使得训练数据集和测试数据集label分布不均衡，此时采用分层抽样（stratify sample）

from sklearn.model_selection import train_test_split
df_train,df_test = train_test_split(df,test_size = 0.2,stratify=df['label'])

参考文献

https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html
https://answers.dataiku.com/2352/split-dataset-by-stratified-sampling

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

菜鸟分析师

关注关注

6
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

程序员用Python爬虫做副业半个月就赚了3W

热门推荐

程序员干货站

04-23

1万+

四月接近尾声，Python爬虫兼职接单高潮期已经到来，最近圈子里喜报频传，很多朋友都接到了大单，甚至有人靠Python爬虫做副业半个月就赚了3W！这年头，只要肯动脑，肯行动，程序员凭借自己的技术，赚钱的方式还是有很多种的。仅仅靠在公司出卖自己的劳动时间挣钱，这是最最最笨的一种方式。在我看来在公司打工是一种时间不可复用，且技能又不断重复的苦力活。我今天给大家的讲的一个故事：我的一个朋友，一个程序员，其实自己也没有做什么高深的技术，也不需要依靠用户的大数据分析，为客户找精准用户，但是，他自己开发了一个工

参与评论您还未登录，请先登录后发表或查看评论

影刀机器人操作-常用知识

m0_47616039的博客

06-26

6518

所以此处使用等待图片消失功能，若图片消失，才点击导出报表。通常配合if使用，如循环1 2 3 4 5的值，若只想要1 2 4 5 的值，那么就是不要3这个值，则加个条件判断，如果循环到的值为3，则跳过，此功能可以理解为跳过当前循环。网页更新导致元素位置元素信息等元素属性更变，根据报错提示行，在机器人中找到当前行，点编辑元素，再校验元素，若提示未找到元素，重新捕获即可。如果条件满足，则执行if里的指令，否则，则不执行，此处循环列表元素，if条件判断，如果循环到的值为2024，则打印出来。

程序员第二职业副业指南

03-22

作为一名大龄程序员，在面对35岁职业危机时，发展第二职业或副业是一项明智且普遍的选择。通过利用丰富的技术经验和行业知识，可以探索多种路径来扩展职业生涯。成功地将自己的专业知识转化为持续的收入流，并拓宽了职业发展的道路。这不仅是应对职业危机的有效策略，也为未来开辟了更多的可能性。

副业项目02：B站引流变现，全自动日赚100+

01-07

02：B站引流变现，全自动日赚100+ 02：B站引流变现，全自动日赚100+ 02：B站引流变现，全自动日赚100+ 02：B站引流变现，全自动日赚100+ 02：B站引流变现，全自动日赚100+ 02：B站引流变现，全自动日赚100+ 02：B站引流变现，全自动日赚100+ 02：B站引流变现，全自动日赚100+ 02：B站引流变现，全自动日赚100+

影刀RPA的魔法指令实现数据清洗、转换和汇总

最新发布

enter回车键

04-09

494

在开始使用影刀RPA之前，我首先分析了我的日常工作流程，找出那些重复性、规则性的任务，这些任务最适合用AI和RPA来实现自动化。在这篇文章中，我将分享我如何使用影刀RPA（Robotic Process Automation）的魔法指令来挑战用AI替代我的工作，并实现了特定流程的自动化。通过分析日常工作流程，并使用影刀RPA实现流程自动化，我可以提高工作效率、降低错误率，从而更好地应对现代工作挑战。通过使用影刀RPA的魔法指令，我成功地实现了数据清洗、转换和汇总等流程的自动化。二、挑战用AI替代我的工作。

副业项目 06：一天引流100+宝妈粉，日入1000+.rar

01-07

副业项目 06：一天引流100+宝妈粉，日入1000+

程序员精益副业指南：它提供了实用的建议和方法，帮助程序员在工作之余探索副业的机会，实现个人发展和收入增长

03-12

http://r.ftqq.com/lean-side-bussiness/020102.html 一本教程，指导程序员如何优雅地做副业。它提供了实用的建议和方法，帮助程序员在工作之余探索副业的机会，实现个人发展和收入增长。对于有志于副业创业的程序员，精益副业是一本有价值的指南。

影刀自动化采集底层逻辑

诡途的博客

09-26

4149

开发的主要流程，一般工作内容是采集/操作浏览器网页，也会有一些客户端交互案例，比如千牛客服，钉钉消息批处理等。更多的工作场景还是基于网页进行的，所以我们还是以网页交互为主。在采集的过程中主要逻辑是先跟浏览器建立联系，在影刀中主要使用create后续所有操作都是对网页交互所以我们后续频繁使用的功能将是web下面的指令，可以重点了解视频版同步详见新鲜出炉的UP主，来当未来百大的老粉吧。

使用影刀开发脚本、Python正则表达式

weixin_59759238的博客

06-10

4283

使用影刀和初识正则表达式

Textinput，输入框一些基本用法

qq_62975986的博客

03-11

2112

qml输入框

影刀RPA：企业数字化转型的得力助手

微刻

09-04

2075

影刀RPA是一款功能强大的机器人流程自动化软件，它能够帮助用户自动化执行各种重复性任务，从而提高工作效率和准确性，影刀RPA提供了直观的拖拽式流程设计器，即使没有编程背景的用户也能快速上手构建自动化流程，影刀RPA支持Windows、Mac、信创系统（如统信UOS、银河麒麟、Linux）、Android等多种操作系统，影刀RPA能够自动化桌面软件、Web程序、手机App、鼠标键盘操作、Excel操作、数据库及SQL等，影刀RPA提供了丰富的学习资源，包括在线课程、社区支持和帮助中心

27条好赚钱副业的忠告：自己也能月入2万+！

这个时代，作为程序员可能要学习小程序

10-23

1924

前言最近我的知乎号也是越做越好了，很多读者私聊我有没有副业可以做，自己平常除本职的工作之外，也会去做一些其他事情。写公众号，搞搞小视频，偶尔还接点小私活，平常还收了几个小徒弟。然而知乎上...

影刀 AI-Power：让每个人都成为自动化高手

微刻

03-01

1248

在这个数字化飞速发展的时代，影刀RPA和AI技术的结合为我们带来了前所未有的便利和效率提升。我们期待着更多的人能够加入到影刀开发者的行列中来，共同探索和创造更多令人惊叹的自动化解决方案。想象一下，当每一个人都能够掌握影刀的开发技巧，将那些繁琐、重复的工作交给机器人去完成，我们就可以从这些机械式的劳作中解脱出来，将时间和精力投入到更有意义的事情上。我们可以有更多的时间去陪伴家人、朋友，去追求自己的兴趣爱好，去思考和创造那些能够推动社会进步的伟大想法。

拿下影刀证书只是开始：持续学习才是硬道理！

微刻

02-27

1680

熟练掌握影刀 RPA 的指令功能是高效应用的基础。影刀 RPA 提供了丰富的指令集，涵盖了从简单的数据操作到复杂的流程控制。例如，其数据处理指令能够高效完成数据清洗、格式转换等任务，流程控制指令则可以实现复杂的业务逻辑。根据实际应用案例，熟练使用这些指令可以将工作效率提升 50%以上。例如，某企业通过掌握影刀的数据处理指令，将原本需要人工 8 小时完成的数据整理工作缩短至 30 分钟。欢迎大家进群交流。

影刀RPA篇（网页数据爬取）

weixin_51885096的博客

06-02

9219

主要内容：通过影刀RPA循环爬取不同页面的详情信息。影刀RPA - 影刀官网 (yingdao.com)最后希望此篇可以为大家提供一些帮助，小弟第一次用影刀，也是第一次写这种类型的博客，表述可能存在一定的问题，欢迎大家在评论区留言，也希望高手可以指正，会及时回复！

影刀RPA实战：制作Excel工资条

微刻

10-10

2104

影刀知识点总结

gf1321111的博客

01-26

1528

影刀知识点总结

影刀RPA学习路线及方法：从入门到精通

微刻

09-05

5894

TextIn.com开发者平台API使用心得

qq_62626359的博客

04-10

1275

TextIn.com开发者平台API使用心得

pycharm无法加载conda虚拟环境

01-24

### 解决PyCharm无法加载Conda虚拟环境的方法 #### 配置设置为了使 PyCharm 能够成功识别并使用 Conda 创建的虚拟环境，需确保 Anaconda 的路径已正确添加至系统的环境变量中[^1]。这一步骤至关重要，因为只有当 Python 解释器及其关联工具被加入 PATH 后，IDE 才能顺利找到它们。对于 Windows 用户而言，在安装 Anaconda 时，默认情况下会询问是否将它添加到系统路径里；如果当时选择了否，则现在应该手动完成此操作。具体做法是在“高级系统设置”的“环境变量”选项内编辑 `Path` 变量，追加 Anaconda 安装目录下的 Scripts 文件夹位置。另外，建议每次新建项目前都通过命令行先激活目标 conda env： ```bash conda activate myenvname ``` 接着再启动 IDE 进入工作区，这样有助于减少兼容性方面的问题发生概率。 #### 常见错误及修复方法 ##### 错误一：未发现任何解释器症状表现为打开 PyCharm 新建工程向导页面找不到由 Conda 构建出来的 interpreter 列表项。此时应前往 Preferences/Settings -> Project:...->Python Interpreter 下方点击齿轮图标选择 Add...按钮来指定自定义的位置。按照提示浏览定位到对应版本 python.exe 的绝对地址即可解决问题。 ##### 错误二：权限不足导致 DLL 加载失败有时即使指定了正确的解释器路径，仍可能遇到由于缺乏适当的操作系统级许可而引发的功能缺失现象。特别是涉及到调用某些特定类型的动态链接库 (Dynamic Link Library, .dll) 时尤为明显。因此拥有管理员身份执行相关动作显得尤为重要——无论是从终端还是图形界面触发创建新 venv 流程均如此处理能够有效规避此类隐患。 ##### 错误三：网络连接异常引起依赖下载超时部分开发者反馈过因网速慢或者其他因素造成 pip install 操作中途断开进而影响整个项目的初始化进度条卡住的情况。对此可尝试调整镜像源加速获取速度或是离线模式预先准备好所需资源包后再继续后续步骤。 ---