HivisionIDPhotos 是一款功能强大的开源证件照生成工具。用户只需上传一张人像照片,它就能智能裁剪为一寸、两寸等标准尺寸,同时自动去除背景并渲染新的背景颜色,例如蓝色、白色、红色,还支持渐变色和自定义颜色。生成的证件照会自动排版为标准的六寸规格,方便用户打印和批量制作。
未来,HivisionIDPhotos 计划推出更多实用功能,例如美颜优化、一键更换正装等,让证件照制作变得更加高效和便捷。目前,该工具已在 Huggingface 等平台上免费开放,懂编程的用户还可以将其部署到本地,享受更个性化的使用体验。
在线免费使用:【链接直达】
HivisionIDPhoto 可以做到:
-
轻量级抠图(纯离线,仅需 CPU 即可快速推理)
-
根据不同尺寸规格生成不同的标准证件照、六寸排版照
-
支持 纯离线 或 端云 推理
-
美颜
-
智能换正装(waiting)
证件照微信小程序
2、本地安装部署
环境安装与依赖:
-
Python >= 3.7(项目主要测试在 python 3.10)
-
OS: Linux, Windows, MacOS
1. 克隆项目
git clone https://github.com/Zeyi-Lin/HivisionIDPhotos.git
cd HivisionIDPhotos
2. 安装依赖环境
建议 conda 创建一个 python3.10 虚拟环境后,执行以下命令
pip install -r requirements.txt
pip install -r requirements-app.txt
3. 下载人像抠图模型权重文件
python scripts/download\_model.py --models all
\# 如需指定下载某个模型
\# python scripts/download\_model.py --models modnet\_photographic\_portrait\_matting
方式二:直接下载
模型均存到项目的hivision/creator/weights
目录下:
人像抠图模型 | 介绍 | 下载 |
---|---|---|
MODNet | MODNet官方权重 | 下载(24.7MB) |
hivision_modnet | 对纯色换底适配性更好的抠图模型 | 下载(24.7MB) |
rmbg-1.4 | BRIA AI 开源的抠图模型 | 下载(176.2MB)后重命名为rmbg-1.4.onnx |
birefnet-v1-lite | ZhengPeng7 开源的抠图模型,拥有最好的分割精度 | 下载(224MB)后重命名为birefnet-v1-lite.onnx |
如果下载网速不顺利:前往SwanHub下载。
4. 人脸检测模型配置(可选)
拓展人脸检测模型 | 介绍 | 使用文档 |
---|---|---|
MTCNN | 离线人脸检测模型,高性能CPU推理(毫秒级),为默认模型,检测精度较低 | Clone此项目后直接使用 |
RetinaFace | 离线人脸检测模型,CPU推理速度中等(秒级),精度较高 | 下载后放到hivision/creator/retinaface/weights 目录下 |
Face++ | 旷视推出的在线人脸检测API,检测精度较高,官方文档 | 使用文档 |
5. 性能参考
测试环境为Mac M1 Max 64GB,非GPU加速,测试图片分辨率为 512×715(1) 与 764×1146(2)。
模型组合 | 内存占用 | 推理时长(1) | 推理时长(2) |
---|---|---|---|
MODNet + mtcnn | 410MB | 0.207s | 0.246s |
MODNet + retinaface | 405MB | 0.571s | 0.971s |
birefnet-v1-lite + retinaface | 6.20GB | 7.063s | 7.128s |
6. GPU推理加速(可选)
在当前版本,可被英伟达GPU加速的模型为birefnet-v1-lite
,并请确保你有16GB左右的显存。
如需使用英伟达GPU加速推理,在确保你已经安装CUDA与cuDNN后,根据onnxruntime-gpu文档找到对应的onnxruntime-gpu
版本安装,以及根据pytorch官网找到对应的torch
版本安装。
\# 假如你的电脑安装的是CUDA 12.x, cuDNN 8
\# 安装torch是可选的,如果你始终配置不好cuDNN,那么试试安装torch
pip install onnxruntime-gpu==1.18.0
pip install torch --index-url https://download.pytorch.org/whl/cu121
完成安装后,调用birefnet-v1-lite
模型即可利用GPU加速推理。
TIPS: CUDA 支持向下兼容。比如你的 CUDA 版本为 12.6,
torch
官方目前支持的最高版本为 12.4(<12.6),torch
仍可以正常使用CUDA。
⚡️ 运行 Gradio Demo
python app.py
运行程序将生成一个本地 Web 页面,在页面中可完成证件照的操作与交互。
🚀 Python 推理
核心参数:
-
-i
: 输入图像路径 -
-o
: 保存图像路径 -
-t
: 推理类型,有idphoto、human_matting、add_background、generate_layout_photos可选 -
--matting_model
: 人像抠图模型权重选择 -
--face_detect_model
: 人脸检测模型选择
更多参数可通过python inference.py --help
查看
1. 证件照制作
输入 1 张照片,获得 1 张标准证件照和 1 张高清证件照的 4 通道透明 png
python inference.py -i demo/images/test0.jpg -o ./idphoto.png --height 413 --width 295
2. 人像抠图
输入 1 张照片,获得 1张 4 通道透明 png
python inference.py -t human\_matting -i demo/images/test0.jpg -o ./idphoto\_matting.png --matting\_model hivision\_modnet
3. 透明图增加底色
输入 1 张 4 通道透明 png,获得 1 张增加了底色的 3通道图像
python inference.py -t add\_background -i ./idphoto.png -o ./idphoto\_ab.jpg -c 4f83ce -k 30 -r 1
4. 得到六寸排版照
python inference.py -t generate\_layout\_photos -i ./idphoto\_ab.jpg -o ./idphoto\_layout.jpg --height 413 --width 295 -k 200
5. 证件照裁剪
python inference.py -t idphoto\_crop -i ./idphoto\_matting.png -o ./idphoto\_crop.png --height 413 --width 295
Docker 一键部署
docker pull linzeyi/hivision\_idphotos
2. 运行服务
启动 Gradio Demo 服务
运行下面的命令,在你的本地访问 http://127.0.0.1:7860 即可使用。
docker run -d -p 7860:7860 linzeyi/hivision\_idphotos
启动 API 后端服务
docker run -d -p 8080:8080 linzeyi/hivision\_idphotos python3 deploy\_api.py
两个服务同时启动
docker compose up -d
环境变量
本项目提供了一些额外的配置项,使用环境变量进行设置:
环境变量 | 类型 | 描述 | 示例 |
---|---|---|---|
FACE_PLUS_API_KEY | 可选 | 这是你在 Face++ 控制台申请的 API 密钥 | 7-fZStDJ···· |
FACE_PLUS_API_SECRET | 可选 | Face++ API密钥对应的Secret | VTee824E···· |
RUN_MODE | 可选 | 运行模式,可选值为beast (野兽模式)。野兽模式下人脸检测和抠图模型将不释放内存,从而获得更快的二次推理速度。建议内存16GB以上尝试。 | beast |
DEFAULT_LANG | 可选 | Gradio Demo启动时的默认语言 | en |
docker使用环境变量示例:
docker run -d -p 7860:7860 \\
-e FACE\_PLUS\_API\_KEY=7-fZStDJ···· \\
-e FACE\_PLUS\_API\_SECRET=VTee824E···· \\
-e RUN\_MODE=beast \\
-e DEFAULT\_LANG=en \\
linzeyi/hivision\_idphotos
往期作品:
[2024 年你需要知道的免费 API-独立产品灵感周刊](https://mp.weixin.qq.com/s?__biz=MzkwODg4MzgzMA==&mid=2247483711&idx=1&sn=87453010e6ffa2c30bb7cc792daea631&scene=21#wechat_redirect)
[发现有趣创意和免费工具-独立产品灵感周刊](https://mp.weixin.qq.com/s?__biz=MzkwODg4MzgzMA==&mid=2247483690&idx=1&sn=29c53406f943ded8aadef7f223f99c3a&scene=21#wechat_redirect)
原文:https://www.freedidi.com/17572.html
零基础入门AI大模型
今天贴心为大家准备好了一系列AI大模型资源,包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
有需要的小伙伴,可以点击下方链接免费领取【保证100%免费
】
1.学习路线图
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
2.视频教程
网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。
(都打包成一块的了,不能一一展开,总共300多集)
3.技术文档和电子书
这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
4.LLM面试题和面经合集
这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
5.免费获取
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码或者点击以下链接都可以免费领取【保证100%免费】