自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(142)
  • 资源 (3)
  • 收藏
  • 关注

原创 Kubeflow安装及代码架构解读

参考网址Installing Kubeflow | Kubeflow安装方式选用官方讲述了两种Kubeflow的安装方式,一种是使用打包发行版本,谷歌云、AWS等厂商的客户可以考虑此方式进行安装使用,应该非常方便。本文主要讲使用manifest(清单) 的方式进行Kubeflow的安装。怎么使用manifest从github上拉取仓库GitHub - kubeflow/manifests: A repository for Kustomize manifests然后照着这个.

2022-04-14 16:44:23 1987

转载 TensorFlow的分布式训练和K8S

原文地址:炼丹师的工程修养之四: TensorFlow的分布式训练和K8S - 知乎1、分布式训练的基本原理无论是TensorFlow还是其他的几种机器学习框架,分布式训练的基本原理是相同的。大致可以从以下五个不同的角度来分类。并行模式 架构模式 同步范式 物理架构 通信技术1.1 并行模式通俗的讲,分布式计算就是通过分布式的多台机器,把原来的巨大的,复杂的问题拆成多个小的、简单的问题来解决。对于机器学习的训练任务,原来的“大”问题主要表现在两个方面。一是模型太大,我们需要把模..

2022-04-14 16:26:57 2258

原创 深度学习框架对应的CUDA版本

前言CUDA (Compute Unified Device Architecture),是NVIDIA发布的一个通用并行计算平台和编程模型。基于CUDA编程可以利用GPUs的并行计算引擎来更加高效地解决计算量大的难题。近年来,GPU最成功的一个应用就是深度学习领域,基于GPU的并行计算已经成为训练深度学习模型的标配。各个深度学习框架基本也都是CUDA实现对GPU的调用及操作。截至本文发文,最新的CUDA版本为CUDA11.6。本文主要记录,不同的深度学习框架使用CUDA需要注意的版本等问题。注

2022-04-13 10:42:40 4617

原创 Kubernete--Pod深入学习

1、Container和Pod概念1、容器是一种便携式,轻量级别的虚拟化技术,使用linux cggroup技术实现各种资源的隔离,如cpu, memory, pid,mount,IPC等,相比于虚拟化技术如KVM,容器技术更加轻易级,它的产⽣主要解决环境的环境发布的问题,⽬前主流的容器技术是docker,说到容器,⼀ 般都等同于docker。要运⾏容器⾸先需要有镜像,应⽤和应⽤依赖的环境运⾏在容器中,在kubernetes中不会直接 运⾏container,⽽是运⾏pod,⼀个pod⾥⾯包含多个c

2022-04-13 09:02:29 3252

原创 Kubernetes快速入门

前言:本文旨在为Kubernetes入门使用者,提供使用Kubernetes需要掌握的基本知识。1. 基础概念1.1 集群与节点kubernetes是一个开源的容器引擎管理平台,实现容器化应用的自动化部署,任务调度,弹性伸缩,负载均衡等功能,cluster是由master和node两种角色组成。master负责管理集群,master包含kube-apiserver, kube-controller-manager,kube-scheduler,etcd等组件。 node节点运行容器应用

2022-04-11 14:15:50 4199

原创 特征平台(Feature Store)概述【未完待续】

参考网址:特征平台(Feature Store):序论 - 知乎特征平台(Feature Store):Feast - 知乎背景AI 算法模型开发落地可以分为三个阶段:数据准备、模型训练、模型部署。市面上已经有较多通用平台支撑模型训练与部署阶段,但自2019年后才陆续有各厂商推出特征平台支撑数据准备阶段。比如 Feast(以下内容主要以Feast为例讲解)特征平台的能力各家的特征平台的具体实现不同,但一般以下几个功能:特征创建 特征注册中心 特征离线存储&消.

2022-04-08 15:31:47 1748

转载 Kubeflow机器学习工具包-概述

参考网址:Kubeflow-K8S的机器学习工具包,太牛了! - 知乎什么是KuberflowKubeflow是Kubenetes的机器学习工具包。Kubeflow是运行在k8s之上的一套技术栈,这套技术栈包含了很多组件,组件之间的关系比较松散,我们可以配合起来用,也可以单独用其中的一部分。下图为Kuberflow官网上所展示的架构图:当我们开发和部署ML系统时,ML工作流程通常包括几个阶段。开发ML系统是一个反复的过程。我们需要评估ML工作流各个阶段的输出,并在必要时对模型和参数进行更

2022-03-14 13:20:21 1057

原创 wget & curl的介绍与使用

wgetwget是Linux中的一个下载文件的工具,后面加上个URL,即可以向相应的网址发送Get请求。如下图所示:wget命令详解,可参见:wget命令详解 - 随性i - 博客园curlcurl 是常用的命令行工具,用来请求 Web 服务器。它的名字就是客户端(client)的 URL 工具的意思。它的功能非常强大,命令行参数多达几十种。如果熟练的话,完全可以取代 Postman 这一类的图形界面工具。基本用法(CURL 发送POST请求):curl -H "Conten.

2022-02-17 10:20:02 985

原创 Docker使用问题汇总(个人笔记)

1、在建容器里,报错 WARNING: IPv4 forwarding is disabled. Networking will not work.解决方法:第一步:vim/usr/lib/sysctl.d/00-system.conf 加入以下代码:net.ipv4.ip_forward=1第二步:重启network服务和docker服务:systemctl restart network && systemctl restart docker第三步:重新运..

2022-01-10 11:50:19 454

原创 云计算技术:存储技术

存储技术演进路线ICT产业从60年代以主机、终端为核心的第一平台到80年代以个人电脑、客户端/服务器和局域网/互联网为依托的第二平台,直至今天演进到了以云计算、大数据、移动、社交媒体为依托的第三平台。第三平台被IDC称为ICT的未来,整个IT行业向第三平台转型是大势所趋。随着上层应用的结构性变革,对应底层存储经历了直连式存储、传统存储、云存储三个阶段。直连式存储DAS直连式存储DAS:存储设备只是服务器的附属品,以服务器为中心,应用服务器只对各自的存储设备进行管理,将存储设备作为外设直.

2021-12-17 15:10:57 3824

原创 深度学习技术选型——文本相似度计算

背景:笔者由于在做一个检索式智能对话系统的项目,需要用到文本相似度计算深度学习模型(以下简称“文本相似度模型”)。便和团队一起对文本相似度技术进行一波调研。目标:1、对同一意思的不同长度的问法,有较好的识别能力“共青团的基本任务” & “中国共青团的基本任务是什么呢”比如上面两个句子,我们希望文本相似度模型能够给出较高的相似度得分。ps:实际的工程实践中实现此目标,我们也可以考虑结合“去停用词”,将“是”、“什么”、“呢”这样的词汇先去掉。停用词词库可以参考下面的链.

2021-12-16 17:37:45 7500 3

原创 云计算技术:Kubernetes技术

承接上文https://blog.csdn.net/chenxy02/article/details/121968901随着容器化技术的广泛应用,业界相继出现了包括Mesos、swarm等容器编排调度方案。经过了这些年的发展,如今我们基本可以说Kubernetesr技术已成为容器编排调度方案的事实。Kubernetes发展Kubernetes是Google容器集群管理系统Borg的开源实现,用Go语言开发2014年6月发布第一个版本; 2018年9月发布1.12版本; 实现对容器的...

2021-12-16 13:24:27 1481 1

原创 云计算技术:容器技术概述

容器概念简述:容器是一种内核虚拟化技术,可以提供轻量级的虚拟化,以便隔离进程和资源。以容器技术为基础,开放诸如CPU、内存这些基本资源而不是虚拟机。是对传统数据中心资源分配粒度的变革。IT资源分配发展趋势:IT资源分配发展经历了从裸机时代到虚拟机时代到如今的容器时代。容器与虚拟机容器并不包含一个单独的操作系统,而是基于已有的基础设施中操作系统提供的功能来运行的。将应用程序及所有程序的依赖环境打包到一个容器中,容器可以运行在任何一种Linux服务器上。这大大地提高了程序运行的...

2021-12-16 11:14:41 4977

转载 JWT介绍及使用

参考地址:五分钟带你了解啥是JWT - 知乎1、JSONWebToken是什么JSONWebToken(JWT)是一个开放标准,它定义了一种紧凑的、自包含的方式,用于作为JSON对象在各方之间安全地传输信息。该信息可以被验证和信任,因为它是数字签名的。2、什么时候用JSONWebToken下列场景中使用JSON Web Token是很有用的:Authorization (授权) : 这是使用JWT的最常见场景。一旦用户登录,后续每个请求都将包含JWT,允许用户访问该令牌允许的......

2021-12-12 16:55:55 528

转载 GBDT的原理和应用

参考地址:GBDT的原理和应用 - 知乎一直以来,GBDT-LR凭借着良好的表达能力和可解释性成为各大厂最重要的模型之一。概述DT-DecisionTree决策树,GB是GradientBoosting,是一种学习策略,GBDT的含义就是用GradientBoosting的策略训练出来的DT模型。模型的结果是一组回归分类树组合(CARTTree Ensemble):T1……Tk。其中Tj学习的是之前j-1棵树预测结果的残差,这种思想就像准备考试前复习,先做一遍习题册,然后把做错的题目挑出...

2021-12-05 13:49:19 310

原创 深度学习推荐系统学习——传统推荐模型

参考书籍:深度学习推荐系统(博文视点出品)传统推荐模型的特点总结 模型名称 基本原理 特点 局限性 协同过滤 根据用户的行为历史生成用户-物品共现矩阵,利用用户相似性和物品相似性进行推荐 原理简单、直接,应用广泛 泛化能力差,处理稀疏矩阵的能力差,推荐结果的头部效应明显 矩阵分解 将协同过滤算法中的共现矩阵分解为用户矩阵和物品矩阵,利用用户隐向量和物品隐向量的内积进行排序并推荐 相较协同过滤,泛华能力有所加强,对稀疏矩阵的处理能力有所加强

2021-12-02 21:10:09 262

原创 知识抽取实现方案——实体抽取

知识抽取涉及的“知识”通常是清楚的、事实性的信息,这些信息来自不同的来源和结构,而对不同数据源进行的知识抽取的方法各有不同,从结构化数据中获取知识用D2R,其难点在于复杂表数据的处理,包括嵌套表、多列、外键关联等。从链接数据中获取知识用图映射,难点在于数据对齐,从半结构化数据中获取知识用包装器,难点在于wrapper的自动生成、更新和维护,这一篇主要讲从文本中获取知识,也就是广义上说的信息抽取。信息抽取三个最重要/最受关注的子任务:实体抽取:

2021-12-02 19:28:34 7970 2

原创 Python项目部署操作手册

一、安装虚拟环境(使用virtualenvwrapper)virtualenvwrapper 时一个基于virtualenv之上的工具,它将所欲的虚拟环境统一管理。1、安装$ sudo pip install virtualenvwrappervirtualenvwrapper默认将所有的虚拟环境放在~/.virtualenvs目录下管理,可以修改环境变量WORKON_HOME来指定虚拟环境 的保存目录。2、启动$ source /usr/local/bin/virtualen

2021-11-30 21:35:27 797

原创 开源协议学习

开源协议内容及对比:可参见:各种开源协议介绍 | 菜鸟教程这个网址对各类开源协议做了详细的介绍及对比,甚至有下面这样的图解分析。如果有英语好的小伙伴也可以直接找开源协议的全文进行阅读,如:Apache License, Version 2.0不同协议间最重要的区别——对衍生产品的要求笔者个人认为的不同的开源协议间最重要的区别,是对衍生产品要求。如BSD、Apache License等许可 鼓励代码重用,允许基于该产品代码开发商业化衍生产品。GPL的出发点是 代码的开源/免费使用.

2021-11-02 15:06:19 298

原创 关于“知识图谱”一些有用的网址

中文开放知识图谱OpenKG.CN – 开放的中文知识图谱医学知识图谱服务HiTA知识图谱 (下载完整数据需要充钱)

2021-10-29 18:56:42 1009

转载 Python模块使用——sys(个人笔记)

参考网址:Python3的sys模块_Bossen的学习历程-CSDN博客_python3 sysPython的sys模块提供访问由解释器使用或维护的变量的接口,并提供了一些函数用来和解释器进行交互,操控Python的运行时环境。1、动态对象sys.path模块的搜索路径;sys.path[0]表示当前脚本所在目录在交互模式下,sys.path[0]返回空字符串。import sysprint(sys.path)# ['', '/usr/local/python3/lib/py...

2021-10-13 12:44:45 385

原创 FastDFS使用手册

1. FastDFS的搭建参见:https://blog.csdn.net/prcyang/article/details/899461902. FastDFS简历FastDFS是一款类Google FS的开源分布式文件系统,它用纯C语言实现,支持Linux、FreeBSD、AIX等UNIX系统。它只能通过 专有API对文件进行存取访问,不支持POSIX接口方式,不能mount使用。准确地讲,Google FS以及FastDFS、mogileFS、 HDFS、TFS等类Goo...

2021-09-01 07:05:39 323

原创 Redis日常使用手册(个人笔记)

安装及启动:参考网址:https://www.cnblogs.com/heqiuyong/p/10463334.html开启远程访问:redis默认只允许本地访问,要使redis可以远程访问可以修改redis.conf打开redis.conf 文件在NETWORK部分有说明:################################## NETWORK ############################## By default, if no "bind" con.

2021-08-24 14:43:57 357

原创 Elasticsearch开启账号密码访问

背景:Elasticsearch默认开启方式是不需要鉴权就可以访问的。笔者在阿里云服务器上安装的ES就曾经被宵小之徒给黑了,留下一句英文信息,翻译过来大概是:如果想恢复原有的ES数据,就转零点几个比特币到XXX账号。为了提高使用ES的安全性,我们需要自己进行ES的相关配置,开启鉴权登录。ES配置步骤:1、需要在配置文件中开启x-pack验证, 修改config目录下面的elasticsearch.yml文件,在里面添加如下内容:xpack.security.enabled: true

2021-08-01 16:36:27 4151

原创 使用Fiddler抓取手机端的数据包

Fiddler下载地址:https://www.telerik.com/download/fiddlerFiddler是一个http协议调试代理工具,它能够记录并检查所有你的电脑和互联网之间的http通讯,查看所的进出Fidder的数据数据(指cookie,html,js,css等文件)。使用Fiddler抓取手机端的数据包,首先需要将手机和电脑连在一个局域网,然后手机的网络代理配置成电脑上的Fiddler。Fiddler便可以将抓获手机端的数据包。1、安装并启动Fiddler,打开菜单栏中的T

2021-07-14 20:34:27 1535

原创 为什么需要图数据库

图数据库的优点:图数据库是基于实体和关系建模的数据库系统。相较于传统关系型数据库有以下优点:1、容易建模。图中存储的是带属性的实体和属性的关系,能够更为直接、自然的表达现实世界,另外图数据库有配套的查询语言,比如Gremlin等,可以方便描述查询条件。比如:查我通过2层人际关系可以认识的人,用Gremlin可以表示为 g.V(我).both(认识).both(认识).both(认识)。用传统关系数据库建模抽象层次高,且SQL语句也更为抽象,尤其在表达多层关系或者涉及多表关联时显得更为复杂。由于建模的

2021-06-09 16:22:48 848

原创 Casssandra常用命令、集群搭建及运行报错处理

一、Cassandra1、启动Cassandrabin/cassandra2、关闭Cassandrabin/nodetool stopdaemon3、查看状态bin/nodetool status4、使用Cqlbin/cqlsh查看keyspacescqlsh> describe keyspaces;删除keyspacescqlsh>drop hugegraph二、Cassandra集群搭建参考网址:https://bl..

2021-04-23 11:41:45 950

转载 Elasticsearch中的相似度评分机制

原文链接:https://cloud.tencent.com/developer/news/762466本文要点:相关性得分是一个搜索引擎的核心,了解它的工作原理对创建一个好的搜索引擎至关重要。 Elasticsearch使用了两种相似度评分函数:5.0版本之前的TF-IDF以及5.0版本之后的Okapi BM25。 TF-IDF通过衡量一个单词在局部的常见性以及在全局的罕见程度来确定查询的相关性。 Okapi BM25是基于tf-idf的,解决了TF-IDF的缺陷,使函数结果与用户的查询更相

2021-04-01 18:58:08 2545

原创 Pycharm日常使用技巧

注:IntelliJ IDEA 和 PyCharm都是JetBrains家旗下的产品,两者之间使用有很多相似之处,可以互为借鉴。一、在IDE中使用Git1、配置本地Git客户端地址2、通过“导航栏”中的“VCS”进行使用二、查找文本1、全局查找:双击"shift"键2、单文件查找:shift + F...

2021-03-27 11:55:15 244

原创 敏捷开发实践经验分享

前言:本文主要从笔者四年的敏捷开发实践经验出发,讲解“敏捷开发是什么?”和“怎么做到敏捷开发”两个问题,同时分享一些个人觉得比较实用的IT项目开发的小方法。

2021-01-26 18:18:03 1502

转载 人工智能讲义(深度学习常用模型评估指标)

原文地址:https://www.cnblogs.com/skyfsm/p/8467613.html“没有测量,就没有科学。” 这是科学家门捷列夫的名言。在计算机科学中,特别是在机器学习的领域,对模型的测量和评估同样至关重要。只有选择与问题相匹配的评估方法,我们才能够快速的发现在模型选择和训练过程中的可能出现的问题,迭代地对模型进行优化。本文将总结机器学习最常见的模型评估指标,其中包括:precision recall F1-score PRC ROC和AUC IOU从混淆矩阵谈起看

2020-11-27 14:39:34 1145

转载 程序员的理想主义(摘取于呼兰1024程序节脱口秀文本)

(本文摘取至呼兰2020年1024程序节脱口秀文本)有的时候一说理想主义,很多人就想听听我们程序员的情怀,听听我们怎么用代码去改变了大家的衣食住行。但很多时候,我们的想法没那么多,我们就是答应人家上线的时间你得上线。我们想用干净的代码 实现每一个功能。程序员有时候会仰望天上的月亮,有时候低头看看六便士。但更多的时候,我们都是平视着屏幕,去用一行行代码实现着我们的理想主义。...

2020-11-10 16:33:24 734

原创 人工智能讲义(工具篇)

基础设施-芯片(ASIC:Application Specific Integrated Circuit,专用集成电路)当前GPU占据大部分的AI训练市场,CPU占据了大部分的AI推理市场。基础设施-芯片-CPU vs GPU从架构上看,GPU采用了数量众多的计算单元,但只有非常简单的控制逻辑并省去了Cache。而CPU不仅被Cache占据 了大量空间,而且还有复杂的控制逻辑和诸多优化电路,相比之下计算能力只是CPU很小的一部分。CPU是通用处理 器, 擅长处理复杂指令、逻辑判断..

2020-10-28 17:33:10 515

原创 人工智能讲义(基本概念讲解)

什么是人工智能目前业界对人工智能虽无统一定义,但对 “基于学习、认知构成的对人的替代”取得高度共识什么是机器学习机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。但从实践的意义 上来说,机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。机器学习一直以来 都是人工智能的研究核心领域。 机器学习:问题类型常见机器学习解决的问题类型有分类和回归,此外还有“聚类”、“异常检测”、“强化学习”等机器学习:训练和推理简单理...

2020-10-23 17:32:07 1714

转载 自然语言处理中的预训练技术发展史

转载地址:https://zhuanlan.zhihu.com/p/49271699前言:Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高的评价吗?我个人判断是值得。那为什么会有这么高的评价呢?是因为它有重大的理论或者模型创新吗?其实并没有,从模型创新角度看一般,创新不算大。但是架不住效果太好了,基本刷新了很多NLP的任务的最好性能,有些任务还被刷爆了,这个才是关键。另外一点是Bert具备广泛的通用性,就是说绝大部分NLP任务都可以采用类似的两阶段模式直接去提升效

2020-08-06 15:52:06 551

原创 为什么是神经网络&深度学习

背景:很多人都知道神经网络、深度学习是上世纪就有的技术,为什么最近这些年才成为“爆款”?本文就这个话题来掰扯掰扯,记录记录一些大佬的对此的见解。Scale drives deep learning progress“Scaledrives deep learning progress”,这是吴恩达的深度学习课程中的一个标题。这里“规模”(scale)一方面指的是神经网络的规模,能构建更多隐藏单元更多连接的神经网络,这一方面很明显依赖于计算机算力尤其GPU技术的大幅度提升。另一方面还有数据“规模”(.

2020-08-06 14:57:46 866

转载 图查询语言——Gremlin

参考:https://blog.csdn.net/CSDN___LYY/article/details/84771820背景:目前图数据库领域最主流的两种查询语言为Cypher 和 Gremlin。Cypher是数据库Neo4j中实现的属性图数据查询语言。与SPARQL一样,Cypher也是一种声明式语言,即用户只需要声明“查什么”,而无须关心“怎么查”。Gremlin是ApacheTinkerPop图计算框架提供的属性图查询语言。Apache TinkerPop被设计为访问图数据库...

2020-07-06 16:18:06 3508

原创 怎么学好编程

前言: "怎么学好编程"这个标题,起得有点业余。软件开发领域中的技术分类 动辄可以分出个上百种(如下图),每一项技术的需学习的基础知识 又大不相同。但是我们又必须允许一个开始学习编程的人 问这样的问题,本文主要面向“只学过点C语言”(一般工科专业 大一都会学)这种基础的人,稍稍讲点学编程的思路。““学计算机的" & “学编程的”作为一个软件开发工程师,我一般只会说自己是“...

2020-04-29 12:41:08 813 4

原创 Python数据预处理--Gensim构建语料词典

Gensim简介开源第三方Python工具包,从原始的非结构化文本抽取语义主题。 支持语料处理、LSA、LDA、RP、TF-IDF、word2vec等主题模型 内存独立,可实现向量空间算法,支持主题建模的可扩展框架 核心:语料、稀疏向量和模型...

2020-04-02 10:22:01 3493

原创 Python数据预处理--数据归一化

背景:现实的数据采集中,由于对不同的特征值采用不同的单位,会导致不同特征值的取值范围会有很多的差距。比如房价以“元”为单位,取值范围可能是1万到10万之间;食物支出占比的取值范围可能是0到1之间。这一问题会严重影响许多模型的创建,针对此我们一般会采用“归一化”对不均衡的数据进行预处理。归一化的意义使数据类型一致且均匀 提高模型精度 加快梯度下降求最优解的速度 概率模型可以不做归...

2020-03-25 13:55:28 2618

词性对照文件,可以用于NLP中自定义

词性对照文件,可以用于NLP中自定义。

2020-03-03

gunicorn安装包(用于pip安装)

gunicorn安装包(用于pip安装),可用python3;下载后在同目录下,运用 pip install gunicorn-19.9.0-py2.py3-none-any.whl

2019-01-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除