自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据、内容挖掘、算法服务

  • 博客(45)
  • 收藏
  • 关注

原创 通往 AGI 的道路上,OpenAI 逐渐构建了全模态的工具集

几天前,OpenAI 公司官宣将发布一个名为“Voice Engine”的小规模模型,引起巨大的声浪。该模型支持仅使用文本输入和单个 15 秒音频样本来生成与原始说话者非常相似的自然语音。可应用于“语音转录”、“语音克隆”、“语音翻译”等场景。笔者感叹 AI 技术的发展太快了,OpenAI 正在逐步构建起一个全面的 AIGC 工具站。接下来我们主要谈谈 OpenAI 当前各个业务板块的代表技术。

2024-04-09 21:05:51 1220

原创 一款比 K8S 更好用的编排工具——Nomad 单机部署

Nomad 是一款基于开源,功能强大的调度程序和集群编排引擎。可以轻松管理从单机到大规模集群的各种容器和非容器化应用程序,实现快速部署和跨平台运行。

2024-03-27 23:05:14 915

原创 一款比 K8S 更好用的编排工具——Nomad 中运行 Docker

Nomad 是一款基于开源,功能强大的调度程序和集群编排引擎。可以轻松管理从单机到大规模集群的各种容器和非容器化应用程序,实现快速部署和跨平台运行。

2024-03-21 23:52:14 799

原创 Nomad 学习之《Hello World》

Nomad 一款功能强大、简单灵活的调度程序和集群编排器,可以轻松管理从单机到大规模集群的各种容器和非容器化应用程序。

2024-03-18 08:08:11 866

原创 一款比 K8S 更好用的编排工具——Nomad

Nomad 采用统一的工作流程,既可以轻松部署和管理任何`容器化应用`或`传统应用程序`。Nomad 也具备运行多种任务的能力,包括`Docker 容器`、`非容器化服务`、`微服务`以及`批处理应用程序`。

2024-03-16 00:03:12 1418

原创 ChatGPT 搜索和 Google 搜索的区别,你知道吗?

Google 搜索具有更广泛的知识量,ChatGPT 拥有更智能更好的交互体验。在日常查询资料、获取知识过程中扮演者不可或缺的角色。

2024-03-14 08:51:23 895

原创 Claude 3 强势来袭,ChatGPT 竟然发不出消息?

Anthropic最新推出的Claude 3家族是一组先进的大型语言模型,在大多数常见的评估基准上都优于Gemini和ChatGPT4。但是,最近发现ChatGPT消息发不出去了。

2024-03-11 08:32:46 455

原创 解放生产力,AI加持你也能做这些事!

去年网上流行一个说法叫一人企业或超级IP。一个人就是一家公司,可以更加专注于自身核心技能。既能对工作拥有更大的自主性和控制力,又能舍弃了传统公司管理等繁琐的事务工作,可以全面释放自己的兴趣和潜力。这个概念给笔者留下了比较深的印象,随着AI的爆发式发展,笔者也一直从事算法落地相关的工作。今天想和大家分享一些AI加持下,提高工作效率的方法。以下都是基于进行验证。

2024-03-10 20:56:45 784

原创 AI Vtuber一款聚合了多种大模型技术的虚拟主播

大家好,笔者荒生,今天调研了一款比较不错的开源项目AI-Vtuber,和大家一起分享。AI-Vtuber是一款数字人虚拟直播软件,聚合了多种多种市面主流大模型技术,可谓牛得一逼。包括:支持ChatGPTClaudeChatGLM智谱AI文心一言等等一系列的 Chat 技术;支持VITSBert-Vits2VALL-E-XOpenVoiceEdge-TTS等多种的语音技术;同时也支持DDSP-SVC变声技术。是不是感觉技术栈满当当的,这还没完。Live2DUE5。而且还支持一键接入多种国内外直播平台,像。

2024-03-10 20:56:00 1088

原创 2024,互联网打工人最终没能逃得过 AI

时间很快就来到了三月份,回首看过去的一年,如果要选择最令人着迷的新技术,那非 AIGC 莫属。

2024-03-10 20:53:32 335

原创 wc 统计已过时,cloc 每一行代码都有效

我们通常用代码量来评判一个程序员技术的高低或一个项目的大小,阅读新项目源码时,也需要了解其代码量,心里有个预期。那如何统计代码量呢?

2022-06-13 13:09:29 268 1

原创 入门篇:从 etcd 名字的由来,到安装部署和使用姿势

etcd 使用 Go 语言开发,底层基于 Raft 共识算法管理高可用的复制日志。当前已经被许多公司用于关键生产项目,比如:Kubernetes、locksmith、vulcand、Doorman 等

2022-06-09 13:02:52 483

原创 如何看待 Python(PyScript) 可以做浏览器前端开发语言?

讨论在"PyCon US 2022"上,由 Anaconda 发布的"PyScript"技术,据说这项技术被 Anaconda 基于"为 99% 的人带来编程"这么宏伟的愿景而创建。

2022-05-09 15:48:18 715

原创 深度总结,带你玩转 NVIDIA GPU

NVIDIA 系统管理界面是基于 `NVIDIA Management Library(NVML)的命令行实用程序,旨在帮助管理和监视 NVIDIA GPU 设备

2022-04-26 19:25:32 2002

原创 还活在上个时代,Etcd 3.0 实现分布式锁竟如此简单

传统 Python 单机系统部署中,由于 GIL 的存在,相同进程中我们可以不用处理并发问题。但是随着业务发展需要,原有单机系统演变成分布式或多进程系统后。这将使原有的单机单进程并发控制策略失效。为了解决该问题需要引入一种跨进程、跨机器的互斥锁机制来控制共享资源的访问,这也就是分布式锁的由来。所以,分布式锁的引入是为了保障多台机器或多个进程对共享资源读写的同步,保证数据的最终一致性。...

2022-04-19 13:27:41 1597 2

原创 从 0 到 1,如何徒手撸个 Python 插件系统?

插件化机制使框架与业务模块的实现相解耦,框架服务抽象出统一的交互接口,业务模块只要符合交互标准即可做到插件替换。

2022-03-31 16:47:17 1031

原创 一站式机器学习开业平台 MLflow 怎么样?

机器学习工作流程 机器学习(ML)通常需要使用广泛的数据集、数据预处理步骤和算法逻辑进行实验,以构建最优指标的模型。模型构建成功后,还需要将其部署到生产系统,监控其效果和性能,并根据新数据不断对其进行

2022-03-24 21:28:47 3935

原创 业余不求人,30秒拖拽制作封面图

还在为 Blog 封面发愁吗?今天号主就给伙伴们安排上,好好吹吹这个国产制图平台Canva 可画:https://www.canva.cn/ 可画是全球领先的视觉传播平台,具体使用方式也非常简单,全程

2022-03-24 21:18:02 320

原创 开源项目 requests 的 stars 为啥比 python 还多3.7k?

这篇文章,包含了对requests的基础应用、超时机制、请求流程的学习,辅以流程图和部分源码的分析帮助理解。篇幅较短,预计阅读时间 15 分钟

2022-03-17 13:14:27 317

原创 业余设计不求人,30秒AI快速制作LOGO

还在为项目 LOGO 发愁吗?今天号主就给伙伴们安排上,好好吹吹这个制作 LOGO 的平台BRAND MARK:https://app.brandmark.io/v3/BRAND MARK:Create a unique, professional logo for your businessBrand Mark是一个为你的项目创建唯一的、专业的 LOGO 的平台,具体使用方式也非常简单,全程点点点即可。比如,我们制作一个李三十一的 LOGO 吧,嗯,这是一个干货满满的号主👍第一步:输入品牌名B

2022-03-14 13:20:28 2893 2

原创 学习Protobuf,ZigZag是啥你真的知道么?

我们了解到通过`Varint` 编码整数,如遇到负数或大整数,就不具备压缩优势了?由于引入了`MSB`,不但没有好的压缩效果,还加大了存储,这明显不是我们想要的。以下,我们聊聊怎么解决这类问题。

2022-03-10 20:43:31 645

原创 学习Protobuf,Varint是啥你真的知道么?

这篇文章,是学习Protobuf过程中偶然所得,算法简洁,篇幅较短,预计阅读时间 4 分钟,如果对您有帮助,还望不吝评价,求点赞、求评论、求转发。Varint 是什么?早期,为了更好计算效率,我们的计算机中数值通常使用定长整型(fixed length intergers)表示。但是,微服务、RPC 架构盛行的今天,定长整型就显得冗余。在大多数计算机系统中,以4 Bytes和8 Bytes 来表示整数(Int32、Int64)。这样,为了传输一个整数1,我们需要传输00000000 0000

2022-03-05 12:46:48 289

原创 大事件:一次算法读图超时引起的urllib3源码分析

urllib3是一个功能强大,条理清晰,用于HTTP客户端的Python库,许多Python的原生系统已经开始使用urllib3

2022-03-02 21:49:27 783

原创 Flask初版架构源码解读 | Python基础

WSGI是什么?WSGI即Web Server Gateway Interface是基于现存的CGI标准而设计的,是Python对CGI进行的一种包装也是一个规范,定义了Web服务器如何与Python应用程序进行交互,使得使用Python写的Web应用程序可以和Web服务器对接起来目前Django、Flask等主流Python Web框架都实现了WSGIWSGI Web架构对于一个遵守WSGI协议的服务器和Web应用来说, 它并不在意到底是谁传过来的数据, 只需要知道传过来

2021-06-21 10:59:15 357

原创 nvidia-smi简介及常用指令 | GPU使用

nvidia-smiNVIDIA系统管理界面(nvidia-smi)是基于NVIDIA Management Library(NVML)的命令行实用程序,旨在帮助管理和监视NVIDIA GPU设备。GPU参数查看查看GPU运行情况nvidia-smiSun Mar 28 02:40:38 2021+-----------------------------------------------------------------------------+| NVIDIA-SMI 418.56

2021-05-14 20:53:00 2167

原创 Pytorch遍历DataLoader时报错【BrokenPipeError:[Errno 32]Broken pipe】

问题描述GPU环境训练好模型,CPU环境部署过程成功后,尝试遍历DataLoader的时候出现了以下报错信息。具体如下:Traceback (most recent call last): File "/usr/local/lib/python3.6/multiprocessing/resource_sharer.py", line 142, in _serve with self._listener.accept() as conn: File "/usr/local/lib/py

2021-05-14 20:52:09 1311 2

原创 Web基础——HTTPS协议简介

协议简介HTTPS 即 HTTP over TLS(Transport Layer Security),是一种在加密信道进行 HTTP 内容传输的协议运行流程基本思路是采用公钥加密法,也就是说,客户端先向服务器端索要公钥,然后用公钥加密信息,服务器收到密文后,用自己的私钥解密握手阶段客户端向服务器端索要并验证公钥双方协商生成"对话密钥"通信阶段双方采用"对话密钥"进行加密通信TLS握手客户端发送一个 ClientHello 消息到服务器端,消息中同时包含了它

2021-05-13 10:13:15 294

原创 Web基础——HTTP协议简介

协议简介HTTP 是在网络上传输HTML的协议,用于浏览器和服务器的通信HTTP 协议构建于 TCP/IP 协议之上,是一个应用层协议,默认端口号是 80HTTP 协议是以 ASCII 码传输,是无连接无状态的请求报文HTTP 请求分为三个部分:状态行、请求头、消息主体。类似于下面这样:<method> <request-URL> <version><headers><entity-body>HTTP 定义了与服务器

2021-05-13 10:12:35 201

原创 CRC32算法理论和分库分表业务实现

算法原理CRC检验原理实际上就是在一个p位二进制数据序列之后附加一个r位二进制检验码(序列),从而构成一个总长为n=p+r位的二进制序列;附加在数据序列之后的这个检验码与数据序列的内容之间存在着某种特定的关系。如果因干扰等原因使数据序列中的某一位或某些位发生错误,这种特定关系就会被破坏。因此,通过检查这一关系,就可以实现对数据正确性的检验注:仅用循环冗余检验 CRC 差错检测技术只能做到无差错接受(只是非常近似的认为是无差错的),并不能保证可靠传输Java实现 import java.util

2021-05-13 10:11:33 546

原创 图片向量相似检索服务(5)——基于milvus实现

概述为了让尝试“以图搜图”的相似图片检索的场景,基于ES向量索引计算和图片特征提取模型 VGG16 设计了一个以图搜图系统。开源地址:https://github.com/yaolipro/image-retrieval检索场景推理流程:读取图片,算法生成特征向量特征入库:把特征向量存入Milvus中检索流程:线上实时向量检索具体流程如下图:Milvus服务端安装安装指南:https://milvus.io/cn/docs/milvus_docker-cpu.md 下载配置

2021-05-13 10:09:57 1625

原创 图片向量相似检索服务(4)——基于faiss实现

概述为了让尝试“以图搜图”的相似图片检索的场景,基于Faiss向量索引计算和图片特征提取模型 VGG16 设计了一个以图搜图系统。开源地址:https://github.com/yaolipro/image-retrieval检索场景推理流程:读取图片,算法生成特征向量特征入库:把特征向量存入ES中检索流程:线上实时向量检索具体流程如下图:Faiss简介faiss是为稠密向量提供高效相似度搜索和聚类的框架。由Facebook AI Research研发。 具有以下特性。提供多

2021-05-10 20:08:21 2451

原创 图片向量相似检索服务(3)——基于ES实现

概述为了让尝试“以图搜图”的相似图片检索的场景,基于ES向量索引计算和图片特征提取模型 VGG16 设计了一个以图搜图系统。开源地址:https://github.com/yaolipro/image-retrieval检索场景推理流程:读取图片,算法生成特征向量特征入库:把特征向量存入ES中检索流程:线上实时向量检索具体流程如下图:ES向量索引Dense Vector:存储稠密向量,存储为单值字段数组,数组的最大长度不能超过2048,每个文档的数组长度可以不同Sparse V

2021-05-10 20:07:47 2243 1

原创 图片向量相似检索服务(2)——四种基本距离计算原理

余弦距离(Cosine distance)余弦相似度原理用向量空间中的两个向量夹角的余弦值作为衡量两个个体间差异大小的度量,值越接近1,就说明夹角角度越接近0°,也就是两个向量越相似,就叫做余弦相似余弦相似度公式具体如下:余弦实际应用现在假设:A用户喜欢a,b,d;B用户喜欢b,c,e;C用户喜欢c,d;D用户喜欢b,c,d;E用户喜欢a,d,建立物品-用户的倒排表,列出每个物品都被哪些用户喜欢,其中“1”表示喜欢,“0”表示不喜欢。注意:这里的喜欢行为可以理解成是用户在产品上触发的交互

2021-05-10 20:07:08 479

原创 图片向量相似检索服务(1)——解决方案

概述当您听到“以图搜图”时,是否首先想到了百度、Google 、阿里等搜索引擎的以图搜图功能呢?事实上,完全可以搭建一个属于自己的以图搜图系统:自己建立图片库;自己选择一张图片到库中进行搜索,并得到与其相似的若干图片。为了让尝试相似图片检索的场景,基于内积距离计算和图片特征提取模型 VGG16 设计了一个以图搜图系统。 正文分为系统概览、 VGG 模型、数据准备、系统部署、总结五个部分。系统构建开源地址:https://github.com/yaolipro/image-retrieval基

2021-05-10 20:06:29 659 3

原创 gunicorn + Flask多进程 print 打印日志乱序问题处理

问题描述gunicorn + Flask部署Python服务,worker > 2 时发现 print 打印日志至 stdout 乱序问题分析多进程部署环境 print 打印不安全,需要添加全局进程锁问题处理Python中最常见多进程锁(multiprocessing.Lock)和多线程锁(threading.Lock),多进程锁实现锁定子进程资源功能,多线程实现锁定子线程资源功能。gunicorn + Flask架构,gunicorn会启动多个worker子进程,每个子进程可看

2021-05-10 20:01:07 1415 2

原创 Python GIL基础学习(2)——可视化

在这些图中,Python解释器刻度线沿X轴显示。两个横条表示正在执行的两个不同线程。白色区域表示线程完全空闲的时间。绿色区域指示线程何时保持GIL并正在运行。红色区域指示操作系统何时仅计划线程将其唤醒,并发现GIL不可用。详见以下图例:首先,这是在单个CPU系统上运行两个CPU绑定线程的行为。经过长时间的计算,线程之间会很好地交替。详见以下图例:其次,双核笔记本机器上启动代码。所有这些红色区域表示操作系统已在一个内核上调度了Python线程的时间,但由于..

2021-05-10 20:00:13 87

原创 Python GIL基础学习(1)

全局解释器锁GIL(Global Interpreter Lock)一、GIL理解GIL指定同时只允许一个线程控制Python解释器。GIL是CPU限制型和多线程代码中的性能瓶颈。GIL导致Python多线程属于伪并发的多线程。GIL只在CPython解释器上存在。GIL的影响Python中同一时刻有且只有一个线程会执行;Python中的多个线程由于GIL锁的存在无法利用多核CPU;Python中的多线程不适合计算机密集型的程序;问题:GIL的存在使程序无法充分利用CPU进行运.

2021-05-10 19:59:28 106

原创 Python插件技术知识

背景概述插件化机制使框架与各个模块的实现相解耦,模块统一抽象出基本数据结构与框架的交互接口,模块只要符合统一接口即可做到插件替换。架构图PluginCore:通过Plugin Manager调用算法,负责业务逻辑的实现PluginManger: 通过读取配置文件,负责各种插件的加载、管理、甚至热更新插件实现import()函数用于动态加载类和函数。如果一个模块经常变化就可以使用 import() 来动态载入函数语法:__import__(name, globals=None

2021-05-10 19:58:30 203

原创 PPT写作结构法则

黄金圈法则结构Why:为什么做这个项目?How:如何做:过程、方法?What:有什么价值?适合项目介绍、案例分享类演讲;PREP结构[总分总结构]Point:观点Reason:理由Example:案例Point:再次强调适合技术研讨、辩论类讲演时间轴结构过去现在未来体现了事物发展的规律和趋势,而通过这种趋势,我们可以去预测未来适合产品介绍、技术迭代、案例分享类讲演金字塔结构问题—原因—对策—结果适合技术创新、产品演示类讲演关于PPT制作凡是复杂

2021-05-10 19:57:11 284 1

原创 Databricks开源项目MLflow入门学习

An open source platform for the machine learning lifecyclehttps://mlflow.org/上下文为开发者提供类似谷歌TFX、Facebook FBLearner Flow等平台类似好处可以支持任何工具和算法项目架构MLflow Tracking记录和查询实验:代码、数据、配置和结果https://www.mlflow.org/docs/latest/tracking.htmlMLflow Projects可在.

2021-05-10 19:54:32 459 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除