自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 改造你的AI服务器——AI容器化简明教程(四)具体使用

AI容器化具体应用介绍

2022-08-14 15:37:50 1717 1

原创 改造你的AI服务器——AI容器化简明教程(三)环境配置

AI容器化环境配置简明教程

2022-08-14 13:43:51 598

原创 改造你的AI服务器——AI容器化简明教程(二)基本知识介绍

AI容器化工作简明教程(二)基本知识介绍

2022-08-07 22:57:54 595

原创 改造你的AI服务器——AI容器化简明教程(一)概述

AI容器化工作简明教程(一)概述

2022-08-07 21:03:05 579

原创 Clion配置远程CUDA调试环境

准备条件ECS规格:ecs.gn5i-c16g1.8xlargeGPU:NVIDIA P4*2CUDA:11.0.2Driver:460.91.03CUDNN:8.0.4步骤远程登录ECS后自动执行CUDA、Driver和Cudnn安装脚本安装相应版本组件;安装cmake(version > 3.0)、gcc、gdb添加toolchain到cmake到启动配置配置本地机器目录和Remote主机目录的SFTP映射关系同步代码后建立build目录并配置nvcc路径,执行cm

2022-02-27 16:31:35 1353 1

原创 Bert使用Horovod改造Elastic实现

Bert使用Horovod改造Elastic实现

2022-01-04 21:49:12 644

原创 Horovod Elastic全流程

Horovod在0.20.0的Version以上支持了Elastic training的功能,以弹性的方式在训练过程中增加或减少分布式训练的协作进程数以达到训练任务的弹性扩缩容的目的,本文以Horovod Elastic下的Pytorch的ResNet-50分类Imagenet的Demo为例。

2021-12-24 13:17:50 921

原创 Accurate、Large Minibatch SGD论文笔记(学习率和batch_size对训练精度的影响)

Accurate、Large Minibatch SGD Note摘要和背景描述分布式训练提升训练速度,采用Large Minibatch,采用线性缩放规则,对Learning Rate作为MiniBbatch的Function进行优化,使得其精度Loss减小。实验目标Demo组成:ResNet-50、Imagenet。目标证明Synchronous模型下的SGD大规模分布式训练的可行性,基于多卡(Tesla P100)的训练实验。探索目标使得使用的Minibatch变大,从而降低训练时间,并同

2021-11-12 22:04:59 1092

原创 Windows环境下Kubernetes学习调试环境搭建(minikube)

Windows环境下Kubernetes学习调试环境搭建目标效果达成Windows下PowerShell下的单机Kubernetes环境搭建,可以利用Windows本地虚拟程序搭建standalone的Kubernetes环境。环境搭建工具:Hyper-VChocolateyMiniKube搭建方式首先安装Windows下的chocolatey> git clone https://github.com/chocolatey-archive/chocolatey.git>

2021-11-11 19:35:46 1335

原创 面试八股文之操作系统与Mysql部分知识点整理

操作系统笔记进程状态:新的、运行、等待、就绪、终止PCB:进程状态、程序计数器、CPU寄存器、CPU调度信息、内存管理信息、记账信息、IO状态信息调度程序:长期(作业)调度(IO为主进程移出)、中期调度(进程换出换入)、短期(CPU)调度(为CPU选择新进程)上下文切换:状态保存、状态恢复,需要系统调用和内核态系统调用类型:进程控制、文件管理、设备管理、信息维护、通信进程间通信:共享内存、消息(命名、同步、缓冲)、socket、管道、信号线程:线程ID、程序计数器、

2021-05-12 21:49:27 60

原创 kubernetes两个坑

服务rc、rs、deployment未找到可以当前可用手动生成api令牌openssl genrsa -out /tmp/serviceaccount.ket 2048在/etc/kubernetes/apiserver修改KUBE_API_ARGS="--service_account_key_file=/tmp/serviceaccount.key"在/etc/kubernetes/controller-manager修改KUBE_CONTROLLER_MANAGER_ARGS="--servi

2021-05-12 21:42:20 409

原创 Kubeflow理解性笔记

概念综述Kubeflow版本控制政策版本控制和稳定状态Kubeflow部署到Kubernetes集群,部署包括许多应用程序,其版本独立于Kubeflow的版本控制,应用程序在稳定性、可升级性以及其他方面满足条件时,应用程序迁移至1.0版本;部署Kubeflow时可以部署到Kubernetes集群的应用程序的状态包括stable(与该申请符合标准,达到应用程序版本1.0,社区已认定申请稳定)、beta(应用程序向1.0版本发行,维护者已传达满足稳定状态标准的时间线)、alpha(应用程序处于开发或可

2021-05-12 21:38:10 783

原创 Kubenetes理解性笔记

Kubenetes理解性笔记主要packageadmission:权限控制框架,采用责任链模式、插件机制。api:Kubernetes所提供的Rest API接口的相关类(MetaData结构、Volume结构、Pod结构、Service结构等),以及数据格式验证转换工具。apis:实现了HTTP Rest服务的一个基础性框架,用于Kubernetes的各种Rest API的实现,在apis包里实现了HTTP Proxy,用于转发请求。auth:3A认证模块,包括用户认证、鉴权的相关组件。cl

2021-05-09 10:18:24 152

原创 Kubernetes学习笔记

K8S笔记建立service步骤建立rc副本文件,并create,实时监控pods并控制pods;建立svc定义文件,创建service对象,动态分配Cluster IP;(服务rc未找到可以当前可用)解决办法:手动生成api令牌openssl genrsa -out /tmp/serviceaccount.ket 2048在/etc/kubernetes/apiserver修改KUBE_API_ARGS="--service_account_key_file=/tmp/serviceaccoun

2021-04-26 16:03:01 199

原创 DGL图卷积网络GCN学习总结

本文以dgl中examples的基于pytorch的gcn的训练过程

2020-10-17 18:45:49 2104

原创 用python实现轻量级的Web服务器框架

学校python大作业,结合刚结束的计算机网络课程,意图巩固已学过的知识,拓展底层相关工程知识水平及能力,用python从底层实现一个Web服务器框架,提供部分Web后端API,尽量向主流的Web开发框架的功能学习靠拢,框架命名为HuoServer。手动实现这个Web服务器框架并实现开源共享可以促进技术交流与个人水平成长。以下部分文字为应付报告的官话,适当理解即可。该轻量级Web服务器框架命名为HuoServer,支持cgi协议外部文件请求,支持Web容器类型的文件GET请求,同时也支持GET形式的

2020-06-16 22:13:49 1256

原创 python+selenium+chromedriver爬取新冠疫情数据

2020年初的新冠疫情让全国人民没有过一个好的年,作为IT人,学习实验室安排了一个疫情查看程序的任务,鄙人的任务是写爬虫爬取数据。作为一个爬虫半吊子,经过两早上的自学,初步完成全国各省市数据以及总体数据的爬取。我选择的是丁香园的网站:https://ncov.dxy.cn/ncovh5/view/pneumonia_peopleapp?from=timeline&isappinstal...

2020-03-02 21:45:06 1275

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除