自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 Python脚本下Linux服务器内存占用太高排查

跑程序时发现Linux服务器killed我跑的程序上网搜索了很多原因后,发现大部分都指向1. 程序占用内存太高,Linux的内存管理机制——OOM机制会干掉一些进程,来防止系统因内存耗尽发生危险。通过此判断确实是python程序导致内存不够,但我的代码上一篇优化过后,读取100G+的文件实际并不需要这么多内存,于是重新排查问题。重新查看代码,甚至怀疑会不会是gc机制一遍遍重复扫描,导致占用内存,在我可以保证不会内存溢出的情况下,我设置了gc.disable(),过了很久,但最终还是被killed。

2024-01-28 13:10:17 440 1

原创 Python读取大json文件性能优化及入库(100G+)

使用以上方式更节省内存,并且是最优的,比分块读取,如f.read(8K)、f.readlines(1000)更优。原因在于,f为文件对象,采用缓存I/O来对文件进行读写操作,本身就具有内存管理,可以不用担心内存管理的问题。但问题是,这个大列表是占用内存的,因此是高CPU开销的,但服务器上只有32G内存,我需要性能更好的代码。以前服务器资源充足时,一直使用bulk批处理 + 手动数据分批,直到这次才了解到流式批量执行(stream_bulk)、并发批量执行(parallel_bulk)。

2024-01-28 11:48:20 1463

原创 api连接失败原因排查

curl用法如下,如果熟练使用,可以取代postman等图形工具。2. ping目的地址,ping通则说明可以通信;若ping不通,说明无法建立连接。3. 使用curl 进行api请求尝试,可以快速获得api调用时,必须要携带的参数。另外在使用api调用时,https默认需要证书,http可以跳过证书验证。-O参数将服务器回应保存成文件,并将 URL 的最后部分当作文件名。-o参数将服务器的回应保存成文件,等同于wget命令。1. 先ping随机一个网址,确保自身网络畅通。-k参数指定跳过 SSL 检测。

2024-01-21 02:57:00 1090 2

原创 内网搭建指定路径虚拟环境

另外在安装whl文件的时候,有个好用的方法,用下面的命令,可以一次性安装指定平台的whl, 需要自己加上--python-version 参数可以指定python版本。whl文件名里,cuxxx才是gpu版本,cpu只是cpu版本,window会默认选择cpu版本,本地pip安装会默认选择window版本。注意搭建环境装包的时候,加-nd,则子目录不会被下载,后续移动文件夹很麻烦;--------------------------------------------你以为就这么结束了吗?

2023-12-14 13:17:50 1048 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除