Pistachiout
码龄5年
关注
提问 私信
  • 博客:211,201
    社区:2
    视频:1
    211,204
    总访问量
  • 107
    原创
  • 37,341
    排名
  • 290
    粉丝
  • 6
    铁粉
  • 学习成就

个人简介:记录学习

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:湖南省
  • 加入CSDN时间: 2019-10-28
博客简介:

Pistachiout的学习博客

查看详细资料
  • 原力等级
    成就
    当前等级
    5
    当前总分
    1,264
    当月
    7
个人成就
  • 获得361次点赞
  • 内容获得100次评论
  • 获得1,417次收藏
  • 代码片获得4,357次分享
创作历程
  • 4篇
    2024年
  • 66篇
    2023年
  • 7篇
    2022年
  • 32篇
    2021年
成就勋章
TA的专栏
  • 云原生
    11篇
  • K8s进阶
    3篇
  • Docker容器
    5篇
  • 云原生智算平台
    10篇
  • Kubernetes入门学习笔记
    7篇
  • 环境配置
    3篇
  • 工具分享
    4篇
  • 论文
    2篇
  • 软件项目
    15篇
  • 区块链项目
    2篇
  • Linux项目
    4篇
  • 小型项目
    10篇
  • JavaWeb项目
    9篇
  • Android项目
    5篇
  • 计算机基础学习
  • 网络编程
    7篇
  • 算法套路
    20篇
  • 数据库
  • 操作系统
    3篇
  • 设计模式
    2篇
  • 编程语言
    1篇
  • Golang
    12篇
  • Java
    18篇
  • python
    8篇
  • C++
    5篇
兴趣领域 设置
  • 编程语言
    pythonjavac++golang
  • 开发工具
    githubci/cddockeridea
  • 大数据
    rediskafka
  • 后端
    mvc分布式
  • 云原生
    dockeretcd容器devopskubernetes云原生微服务kubeletistiopodman
  • 移动开发
    android
  • 人工智能
    边缘计算迁移学习AI作画
  • HarmonyOS
    华为云
  • 操作系统
    ubuntu
  • 设计模式
    设计模式
  • 云平台
    腾讯云阿里云华为云
  • 区块链
    区块链web3
  • 运维
    nginxdocker服务器
  • 服务器
    ubuntucentos
  • 前沿技术
    5Gweb3论文阅读AI作画
  • 开源
    github
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

175人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

MegaScale:万级GPU集群中大模型训练

MegaScale是一个专为在超过10,000个GPU上训练大型语言模型(LLMs)而设计的生产系统。该系统通过算法和系统组件的协同设计,解决了大规模训练中的效率和稳定性挑战,从而实现了高效的训练。
原创
发布博客 2024.08.04 ·
739 阅读 ·
4 点赞 ·
1 评论 ·
10 收藏

蚂蚁开源大模型容错框架DLRover介绍

ElasticDL基于 TensorFlow 2.0 和 Kubernetes 的弹性分布式深度学习框架。不同于 Kubeflow/TF-operator 给每个集群部署一个 Kubernetes Operator 的方式, ElasticDL 为每个作业引入一个 master 进程。通过调用 Kubernetes API,master 进程了解集群情况;
原创
发布博客 2024.08.04 ·
865 阅读 ·
20 点赞 ·
0 评论 ·
14 收藏

分布式训练基础入门

大型模型并行采用算子内并行+算子间并行解决单设备内存不足,这种情况下,计算中的下游设备(Downstream Device)需要长期持续处于空闲状态,等待上游设备(Upstream Device)的计算完成,才可以开始计算,这极大降低了设备的平均使用率。为了更新参数,计算图的执行分为前向计算和反向计算两个阶段。场景:假设某个算子具有𝑃个参数,而系统拥有𝑁个设备,那么可以将𝑃个参数平均分配给𝑁个设备(每个设备分配𝑃/𝑁个参数),从而让每个设备负责更少的计算量,能够在内存容量的限制下完成前向计算和反向计算。
原创
发布博客 2024.06.11 ·
1002 阅读 ·
21 点赞 ·
0 评论 ·
16 收藏

gpu-burn+jupyter notebook镜像Dockerfile及gpu-burn介绍

可以自己将cuda版本换为cuda11.8镜像可打开jupyter,并可在/app目录下执行./gpu_burn
原创
发布博客 2024.06.11 ·
519 阅读 ·
3 点赞 ·
0 评论 ·
0 收藏

SOA架构介绍与简单代码示例

SOA是一种设计方法,其中包含多个服务,服务之间通过相互依赖最终提供一系列的功能。一个服务通常以独立的形式存在与操作系统进程中。各个服务之间通过网络调用。
原创
发布博客 2023.12.27 ·
743 阅读 ·
9 点赞 ·
1 评论 ·
7 收藏

云原生机器学习平台cube-studio开源项目及代码简要介绍

cube-studio是开源的云原生机器学习平台,目前包含特征平台,支持在/离线特征;数据源管理,支持结构数据和媒体标注数据管理;在线开发,在线的vscode/jupyter代码开发;在线镜像调试,支持免dockerfile,增量构建;任务流编排,在线拖拉拽;开放的模板框架,支持tf/pytorch/spark/ray/horovod/kaldi等分布式训练任务;task的单节点debug,分布式任务的批量优先级调度,聚合日志;任务运行资源监控,报警;定时调度,支持补录,忽略,重试,依赖,并发限制,定时任务
原创
发布博客 2023.12.27 ·
4390 阅读 ·
29 点赞 ·
8 评论 ·
33 收藏

加载离线镜像包:在线镜像离线为tar包、tar离线镜像包加载并根据imageId打tag

需要四个文件,第一个是第一步生成的压缩包output.tar,第二个是脚本文件image_offline_load.sh脚本,第三个是image_list.txt 按行 存放需要离线的镜像名称,第四个是第一步生成的 imageid_list.txt 存放离线的镜像id。需要两个文件,第一个是脚本文件image_offline_load.sh脚本,第二个是image_list.txt 按行 存放需要离线的镜像名称。
原创
发布博客 2023.12.07 ·
798 阅读 ·
5 点赞 ·
0 评论 ·
9 收藏

在物理机内的虚机创建进入容器,执行命令时提示权限不够

查阅资料后发现,具体原因可能是因为安全模块selinux把权限禁掉了,因此我们在启动容器时,给容器加特权,及加上 --privileged=true 参数,如下所示。在服务器上创建容器后,run -it 进入容器后执行命令,却提示权限不够,如下所示。
原创
发布博客 2023.10.27 ·
297 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

K8s(Kubernetes)学习(七)——k8s持久化存储:emptyDir、local、nfs、PV&&PVC静态供给&动态供给、configMap、secret

在 Kubernetes 中,ConfigMap 是一种用于存储非敏感信息的 Kubernetes 对象。它用于存储配置数据,如键值对、整个配置文件或 JSON 数据等。ConfigMap 通常用于容器镜像中的配置文件、命令行参数和环境变量等。环境变量注入:将配置数据注入到 Pod 中的容器环境变量中。配置文件注入:将配置数据注入到 Pod 中的容器文件系统中,容器可以读取这些文件。命令行参数注入:将配置数据注入到容器的命令行参数中。基本操作。
原创
发布博客 2023.09.25 ·
588 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

K8s进阶之网络:pod内不同容器、同节点不同pod通信、CNI插件、不同节点pod通信、Flannel容器网络、Serivce连接外部网络、服务发现、Nginx反向代理与域名、Ingress代理

CNI如Calico、flannel等本身并不能提供网络服务,它只是定义了对容器网络进行操作和配置的规范。CNI仅关注在创建容器时分配网络资源,和在销毁容器时删除网络资源。常见的CNI插件包括Calico、flannel等。具体的流程如下图所示:在集群里面创建一个 Pod 的时候,首先会通过 apiserver 将 Pod 的配置写入。apiserver 的一些管控组件(比如 Scheduler)会调度到某个具体的节点上去。
原创
发布博客 2023.09.21 ·
4465 阅读 ·
4 点赞 ·
0 评论 ·
33 收藏

K8s(Kubernetes)学习(六)——Ingress

Ingress 是一种 Kubernetes 资源类型,它允许在 Kubernetes 集群中暴露 HTTP 和 HTTPS 服务。通过 Ingress,您可以将流量路由到不同的服务和端点,而无需使用不同的负载均衡器。Ingress 通常使用 Ingress Controller 实现,它是一个运行在 Kubernetes 集群中的负载均衡器,它根据Ingress 规则配置路由规则并将流量转发到相应的服务。
原创
发布博客 2023.09.18 ·
828 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

K8s(Kubernetes)学习(五)——Service:ClusterIP、NodePort、LoadBalancer、 ExternalName

官网地址: https://kubernetes.io/zh-cn/docs/concepts/services-networking/service/将运行在一个或一组 Pod 上的网络应用程序公开为网络服务的方法。通俗定义: Service 用来为 pod 提供网络服务的一种方式。
原创
发布博客 2023.09.18 ·
1068 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

shell脚本批量实现项目镜像本地化:docker注册证书login到harbor、将镜像push到harbor仓库、批量判断镜像是否在harbor仓库中已存在、find+sed替换源代码镜像地址

我们使用docker login/push/pull去与Harbor打交道,上传下载镜像等。当然,以上脚本的关键在于image_name与new_name的获取,若new_name可根据image_name修改得到,也可以更改脚本得到适合自己的new_name,以下可供参考。如上所示,我们首先需要准备一个images.txt里面包括了所有下载镜像名及上传名,如下所示,每行包括image_name与new_name,其中用空格隔开。, 然后把harbor的证书ca.crt等拷贝到这个目录即可。
原创
发布博客 2023.09.13 ·
886 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

K8s(Kubernetes)学习(四):Controller 控制器:Deployment、StatefulSet、Daemonset、Job

Kubernetes 通常不会直接创建 Pod, 而是通过 Controller 来管理 Pod 的。Controller 中定义了 Pod 的部署特性,比如有几个副本、在什么样的 Node 上运行等。通俗的说可以认为 Controller 就是用来管理 Pod 一个对象。其核心作用可以通过一句话总结: 通过监控集群的公共状态,并致力于将当前状态转变为期望的状态。通俗定义: controller 可以管理 pod 让 pod 更具有运维能力。
原创
发布博客 2023.09.06 ·
878 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

中国信通院:人工智能研发运营体系 (MLOps)实践指南

发布资源 2023.09.06 ·
pdf

KubeFlow组件介绍

这很大程度上减少了运维的工作。kubeflow是一个胶水项目,它把诸多对机器学习的支持,比如模型训练,超参数训练,模型部署等进行组合并已容器化的方式进行部署,提供整个流程各个系统的高可用及方便的进行扩展部署了 kubeflow的用户就可以利用它进行不同的机器学习任务。(自定义资源),通过这样一个资源类型,使用 TensorFlow 进行机器学习训练的工程师们不再需要编写繁杂的配置,只需要按照他们对业务的理解,确定 PS 与 worker 的个数以及数据与日志的输入输出,就可以进行一次训练任务。
原创
发布博客 2023.08.30 ·
2475 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

算法套路二十——单调栈

单调栈是一种特殊的数据结构,用于解决与元素的相对大小有关的问题。它是一个栈,但其中的元素以的顺序排列,用于处理与有关的问题。
原创
发布博客 2023.08.10 ·
243 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Kubeflow Pipelines介绍与实例

kubeflow/kubeflow 是一个胶水项目,。pipelines 是基于 kubeflow 实现的工作流系统,它的目标是借助 kubeflow 的底层支持,实现出一套工作流,支持数据准备,模型训练,模型部署,可以通过代码提交等等方式触发。
原创
发布博客 2023.08.10 ·
1985 阅读 ·
1 点赞 ·
0 评论 ·
8 收藏

网络编程——RPC与HTTP基本介绍、历史追溯、主流应用场景、对比分析、为什么还需要使用RPC

RPC并不是一个具体的协议,只是一种协议的规范,它并没有具体实现,只有按照RPC通信协议规范实现的通信框架,也就是RPC框架,才是协议的具体实现,它包括了:接口规范+序列化反序列化规范+通信协议等。现在狭义的RPC一般指一些用IDL(Inteface Description Language)描述接口, 然后生成stub的框架, 比如grpc,thrift,dubbo等,其中grpc,dubbo3.0的传输用的都是HTTP2.0,也已经属于RPC和HTTP的融合体了,这种融合体的设计使得开发人员可以享受到H
原创
发布博客 2023.07.14 ·
6970 阅读 ·
19 点赞 ·
5 评论 ·
38 收藏

Go语言网络编程:HTTP服务端之底层原理与源码分析——http.HandleFunc()、http.ListenAndServe()

在 Golang只需要几行代码便能启动一个 http 服务,在上述代码中,完成了两件事:- 调用 http.HandleFunc 方法,注册了对应于请求路径 /ping 的 handler 函数- 调用 http.ListenAndServe,启动了一个端口为 8999 的 http 服务
原创
发布博客 2023.07.08 ·
3178 阅读 ·
1 点赞 ·
0 评论 ·
16 收藏
加载更多