阿尔法旺旺-CSDN博客

原创你真的了解什么是生成式AI吗？

首先，说说AI，Artificial Intelligence是“人工智能”的英文两首字母的缩写，它意味着用计算机去帮助人们完成一些类似人类才能完成的一些工作，比如识别物品，识别花草树木，根据历史的天气情况预测明天的天气等等，总之是让机器像人一样去辅助人类去完成某项任务。再例如，以前的游戏人物设计，需要美工人员可能会从0开始设计人物原型，现在的生成式AI可以根据你的描述词生成出大量的人物原稿供你选择，同时可以给你自动上色，美工要做的是后期的精修和调整，这大大提升了产出效率。二者是相辅相成的关系。

2023-08-05 13:53:10 739

原创 ThirdAI 的私有和可个性化神经数据库：增强检索增强生成（第 3/3 部分）

NeuralDB神经网络数据库，PocketLLM

2023-07-28 15:48:40 295 1

原创神经数据库：用于使用 ChatGPT 构建专用 AI 代理的下一代上下文检索系统 — （第 2/3 部分）

神经网络数据库->向量数据库

2023-07-28 15:26:26 1286

原创理解构建LLM驱动的聊天机器人时的向量数据库检索的局限性 - （第1/3部分）

向量数据库检索

2023-07-28 14:58:32 1406

翻译做基础架构学到的42件事

做基础架构设计工作时的一些准则

2022-08-17 14:50:48 128

翻译 MLOps 概述，定义和架构

摘要所有工业机器学习（ML）项目的最终目标是开发ML产品并迅速投入生产。然而，自动化和操作化是一项极具挑战性的工作，ML产品和许多ML工作者努力也未能实现其期望目标。机器学习操作的范例（MLOps）解决了这个问题。MLOps包括几个方面，例如最佳实践、概念集和开发文化。然而，MLOps仍然是一个模糊的术语，其结果导致研究人员和专业人士的意见不明确。为了解决这一差距，我们进行了混合方法研究，包括文献综述，工具审查和专家访谈。基于这些调查中，我们提供了必要的原则、组件和角色，以及相关的架构和工作流。.....

2022-07-17 21:31:24 1851

转载工业人工智能系统框架、关键技术、典型应用与发展趋势

对于近年来国内外人工智能的发展状况有很多报告，其中包括国家智库层面和企业民间层面的，评价体系也各有不同，因此也只是一个侧面反应。针对1990—2019年中美德英日韩等六国，对比产业核心技术专利数量，中国在产业人工智能方面前进步伐较大，如图1所示。浙江大学顾国达等构建了一个系统全面的人工智能评价指标体系，涵盖人工智能的环境支撑力、知识创造力、产业竞争力3个主要评价领域，2个具体指标，既可从整体掌握经济体人工智能的综合实力，又可从多维度对人工智能的发展成效进行国际比较和动态追踪。利用2010—2018年人工智能

2022-07-09 21:49:51 1191

原创模型算法的测试方法

模型蜕变测试1.蜕变测试概述常规软件应用程序的测试存在测试断言,这表示可以通过测试人员或测试机制(例如自动测试)针对预期值验证软件应用程序的输出是否符合事实。但是在模型算法测试中，由于时间和人力等的限制，缺乏由模型算法测试确定的测试断言。此时需要某种不休赖于测试断言的测试，这就是蜕变测试出现的背景。蜕变测试(MetamorphicTesting,MT)是利用模型算法内含属性的测试方法，其思想是假设以某种方式修改了那些与属性相关的输入，则可以在给定原始输入和输出的情况下预测新的输出。依据被...

2021-08-11 14:33:56 4866 1

原创模型算法评估与测试

在机器学习应用中，一般会采用在线和离线两套数据和环境进行，离线开发进行训练，然后在线提供服务。在离线评估时，我们使用训练样本和测试样本来训练和评估机器学习模型算法，以使模型算法的偏差和方差尽可能小。在进行在线评估时，除了验证在线部署的正确性，还要从业务的角度来评估模型。此外，还要关注在线模型算法的指标，保障在线服务的稳定性。模型算法的评估指标1、回归模型的评估指标1) 平均绝对误差平均绝对误差( Mean Absolute Eror, MAE )又称为平均绝对离差，是所有单个观测值与算.

2021-08-01 12:42:56 1403

原创模型部署工程技术

概述为了将训练好的模型部署、上线，首先需要确认训练模型与接入的应用服务所使用的编程语言是否一致，其次考虑模型应用于产品服务的方式。在调试模型时，大多使用PyCharm、Spyder工具中的控制台来输出训练结果，或者使用Jupyter NoteBook进行交互。将模型部署于产品常用的方式有两种-----基于 HTTP服务或基于预测标型标记语言(Predictive ModelMarkup Language, PMML )。其中，基于HTTP服务是指在生产环境中部署Python环境以及Python的机器

2021-07-18 07:51:48 951 1

原创数据与建模工程技术

数据存储机器学习的整个流程几乎都会产生数据。除了数据采集阶段的原始数据，还有加工后的中间数据、训练好的模型等。除了传统的关系型数据库，各种各样的NoSQL数据库(如列式数数据库、K-V数据库、文档型数据库、全文搜索引擎、图数据库等)系统也应用广泛。关系型数据库(如PostgreSQL)适用于存储元数据(文件路径、标签、用户行为等)。除了支持SQL,它对非结构化JSON格式也支持良好。列式数据库是以列相关存储架构方式进行数据存储的数据库，主要适合批量数据的处理和即时查询。基于列式数据库的列存...

2021-07-17 09:44:12 216

原创模型评估平台

对模型进行评估的平台通常需要支持任务调度、指标分析、可视化、报告管理、用户管理、日志管理、邮件管理等功能。平台需求分析以金融风控场景中的用户信用资质评估为例，在通过一系列数据分析建模，得到一个用户信用资质的模型。对于此类模型的评估，主要考虑以下几点：模型评估的样本收集。模型产品种类多，训练是基于多种数据源和数据流量进行的。模型评估首先要解决样本收集问题。样本收集功能较独立，所以应将其解耦，以便后续模块接入。样本数据的特征计算。有了样本，需要特征工程处理，将数据转化为特征，此过程需要接入特征计

2021-07-14 08:36:12 724 1

翻译 Google软件工程（续）

3 项目管理3.1 20%时间Google允许员工花费20%的时间去做他们选择的任何项目，而无需经过他们主管或其他人的允许。这对获得工程师的信任极其重要，有如下几点原因。第一，它允许任何有好想法的人，即使他的想法在其他人看来目前并不是有价值，可以有足够的时间去开发一个原型、示例或者演示去展示他们想法的价值。第二，他提供了管理上的透明性，否则员工会隐藏这类活动，在其他没有正式政策允许20%时间的公司，员工有时会从事“地下工作“项目而不会让主管知道。如果工程师对这些项目持开放态度，这样会好很多，即使他们的主

2021-01-19 16:00:28 400

翻译 Software Engineering at Google

最近在读google的软件工程实践，翻译如下，共勉。原文如链接 https://arxiv.org/pdf/1702.01715.pdf大致分为了以下5个方面进行论述：1.Google软件工程之道（一）综述2.Google软件工程之道（二）软件开发3.Google软件工程之道（三）项目管理4.Google软件工程之道（四）员工管理5.Google软件工程之道（五）总结摘要本文中，我们描述和整理Google的核心软件工程实践经验。作者简介Fergus Henderson已在Google从

2021-01-13 13:37:33 1423 1

原创聊一聊AI智能养老

随着人口老龄化，有更多的老人需要陪护，无论是养老院还是家中养老，普遍认为，传统养老存在四大痛点：1、传统化电器设计，对腿脚不方便的老人非常不友好；2、安防监护缺失，老人失联事件频繁；3、老人发生意外或疾病的紧急情况无法及时沟通；4、儿女无法随时直观了解父母的动态等。据统计，目前护工的缺口高达千万。养老院缺资金、缺人员、缺设施、缺服务也是不争的现实。这些痛点与养老生活的质量密切相关。如果说智能养老院和智能护理机器人是全方位立体呵护的“航空母舰”，那么智能音箱则可以作为一个“舰载飞机”，作为产品切入点

2020-09-22 15:05:14 736

原创 AI架构师的素养

1、实际业务项目的理解、完成、平衡•对业务理解，分析问题，能够抽象成具体的技术问题，形成正确的思路和方法为什么强调这一点？因为，很多时候大家对业务问题表达的比较清晰，但是还是都站在一个业务方的角度，因为我们是要做技术的，要用技术把它实现，所以怎么把业务问题定义成一个技术问题，这里还不是特别清晰，这点很重要。举个例子：比方说我们要做一个像车牌识别，那么具体有几步？有检测的问题，然后具体还有切字，还有识别的问题，甚至其他的一些内容把它定义成一个分割问题，对不对？就是怎么样把业务问题转化成技术问...

2020-09-11 15:20:03 335

转载 AI中台，你该知道的

**导读：**随着“数据中台”的提出和成功实践，各企业纷纷在“大中台，小前台”的共识下启动了自己的中台化进程，以数据中台、技术中台、业务中台为代表的一系列技术，极大增强了业务的敏捷性，提高了组织效能。同时随着智能技术的发展，AI应用在业务研发中的占比逐渐升高，但AI模型训练的复杂性导致其开发慢、效率低，严重影响了业务的灵活性。针对这种情况，能否基于中台化思想对业务中AI研发工作进行专门支持，提供...

2020-02-01 21:19:56 1455

转载从云原生到Service Mesh

云原生参考：https://blog.csdn.net/csdnnews/article/details/90093190云原生从字面意思上来看可以分成云和原生两个部分。云是和本地相对的，传统的应用必须跑在本地服务器上，现在流行的应用都跑在云端，包含IaaS,、PaaS和SaaS。原生就是土生土长的意思，我们在开始设计应用的时候就考虑到应用将来是运行云环境里面的，要充分利用云资源的优点，比...

2020-01-28 23:05:20 895

原创 Centos7RedHat7安装NVIDIA-TeslaP4显卡驱动手册

Centos7/RedHat7安装NVIDIA-TeslaP4显卡驱动手册Linux系统一般默认安装的是开源的nouvea显卡驱动，它与nvidia显卡驱动产生冲突，欲装nvidia必先禁nouvea！关闭secure boot（坑1） —由系统部完成修改，默认是已设置重启电脑，进入BIOS找到seure boot，一般在boot选项中将 “Enable” 改为 “Disable”...

2020-01-16 14:28:51 4975

原创 Review EPC

回想起这张2011年4G核心网培训中的网元架构图，感慨万千，恍如隔世。那一年，身在500强通行巨头的航母中，感受着友商产品、技术强烈的冲击，无论从产品服务，还是市场、技术优势都感受到前所未有的压迫感，可能底层技术人员的感觉更细腻，更敏锐点。再加上外企环境在发生微妙的变化，时至今日，至少我没有判错大的方向。那一年，好友兼leader以及几个熟悉的朋友都投奔了各自的前程，回想起研究生寝室3个毕业，...

2019-07-22 21:46:39 156

原创 OCP培训笔记

Openshift是什么？能干什么？所谓得Paas者得天下，Openshift**是红帽的云开发平台即服务（PaaS）。IT发展方向：容器化所有应用，目的实现DEVOPS，目前的几种实现方式：1）AWS Devops参考：https://www.sohu.com/a/213232086_4118762）Openshift3）RunC和Podman （Openshift4.1）Run...

2019-06-25 16:17:55 2683

原创读《Hands-On Transfer Learning with Python》小试锋芒之释放迁移学习的洪荒之力

本章的主要内容 The need for transfer learning Building Convolutional Neural Network (CNN) models from scratch:Building a basic CNN modelImproving our CNN model with regularizationImproving our CNN mod...

2019-05-12 21:46:55 806

原创读《Hands-On Transfer Learning with Python》初体验

读《Hands-On Transfer Learning with Python》初体验最近由于工作原因及个人兴趣，对迁移学习兴趣盎然，很想深入了解该领域知识，偶得该领域最新力作，现分享阅读的一些心得和要点。本书秉承一贯的传道授业顺序，从机器学习到深度学习再到迁移学习，建议对机器学习和深度学习有一定基础的同仁忽略前3章节。这里简要概括一下前3章的重点。要了解迁移学习，首先要明白迁移学习在整个...

2019-05-01 19:47:31 1352

翻译深度学习的高性能计算技术（Horovod 分布式）

深度学习的高性能计算技术介绍在过去几年中，神经网络已被证明是解决各种问题的极其有效的工具，并且在规模和计算要求方面迅速增长。 2012年，用于图像识别的超级卷积网络在物体识别方面取得了巨大进步，花了一周时间用两个GPU，拥有6000万个参数。 2016年，研究人员在语言建模方面取得了突破，该网络拥有超过10亿个参数，在32个GPU上训练了三个星期。在百度研究所的硅谷AI实验室内，2014年我们...

2019-04-14 21:29:30 3746

原创 L1和L2正则再回顾与小结

L1和L2正则回顾与思考衡量一个向量的大小，在机器学习领域通常用范数来衡量。形式上，$ L^p$ 范数定义如下：∣∣x∣∣p=(∑i∣xi∣p)1p||x||_p=(∑_i|x_i|^p)^{\frac 1 p}∣∣x∣∣p=(∑i∣xi∣p)p1L0范数是指向量中非0的元素的个数。L1范数是指向量中各个元素绝对值之和，也叫为“稀疏规则算子”（Lasso Regularizatio...

2019-01-23 22:34:00 835

翻译 DataScience Process Analysis

数据科学工作流解析假如您正在开始一个新的数据科学项目（可以是对一个数据集的简短分析，也可以是复杂的多年合作项目）。您应该如何组织你的工作流程呢？你把数据和代码放在哪里？你使用什么工具？为什么使用它们？一般来说，在首先进入数据工作之前，您应该考虑什么？在软件工程行业中，这些问题具有一些众所周知的答案。尽管每家软件公司都有其独特的特点和喜好，但大多数软件公司的核心流程都基于相同的既定原则，实践和工具...

2018-12-11 13:55:52 459

原创目标检测资源收集汇总

目标检测资源收集汇总今年以来读过的object detection资源列表如下：41、从R-CNN到RFBNet,深度目标检测5年纵览，文章+代码让你从入门到精通https://mp.weixin.qq.com/s/56bcjzUDm7V0oDknAk0Azw46、【学界】ECCV-2018最佼佼者的目标检测算法https://mp.weixin.qq.com/s/FzP7cEasXBg...

2018-11-27 22:31:48 498

原创推荐系统

推荐系统概要一、推荐系统的本质推荐系统在本质上是一个信息检索的系统。它和搜索最大的区别是，搜索是主动式的，根据关键词和引擎参数、搜索引擎召回、机器学习排序，决定给你看到的是哪些内容。而我们看到的推荐系统，在大多数情况下是没有主动输入的（有时会有一些简单的反馈动作），是被动出现的。推荐系统是利用上下文，根据当前用户所处的环境，根据信息的特点来决定给你推荐什么内容和商品。而推荐系统的目标是什么，...

2018-10-30 18:47:42 647

转载聚类算法

常见聚类算法小结参考：https://blog.csdn.net/abcjennifer/article/details/8170687?utm_source=blogxgwz1https://www.zhihu.com/search?q=聚类算法&type=content1、K-MeansK-Means（k-平均或k-均值）可以称的上是知名度最高的一种聚类算法，它常出现在许多有关...

2018-10-26 10:28:32 1685

原创 Tensorflow一些小技巧

Tensorflow使用中的一些小技巧Tensorflow 高阶API架构图总结出来有如下几个方面：用Eager模式搭建原型用Datasets处理数据用Feature Columns提取特征用Keras搭建模型借用Canned Estimators用SavedModel打包模型模型函数用Tensorflow Serving发布模型LayersHead下面我们依次来介...

2018-10-12 13:51:33 986

转载 OCR技术简介.md

光学字符识别（Optical Character Recognition, OCR）是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。亦即将图像中的文字进行识别，并以文本的形式返回。OCR的应用场景根据识别场景，可大致将OCR分为识别特定场景的专用OCR和识别多种场景的通用OCR。比如现今方兴未艾的证件识别和车牌识别就是专用OCR的典型实例。通用OCR可以用于更复杂的场景，也...

2018-09-26 22:06:28 5256

原创机器学习中的降维算法汇总归纳

最近看了降维的各类算法，想简单做个回顾和小结，先上图一、浅谈协方差矩阵1.1、统计学的基本概念均值：x ¯ =∑ n i=1 x i n  x¯=∑i=1nxin\bar x =\dfrac {\sum_{i=1}^n x_i} n 方差：var(x)=∑ n i=...

2018-09-13 16:34:22 4592 1

原创构建深度学习模型的基本技巧

通用方法使用 ADAM 优化器。它确实很有效，相对于较传统的优化器（如原版梯度下降），我们更喜欢使用 ADAM。在 TensorFlow 环境下使用 ADAM 时，请注意：如果你想要保存和恢复模型权重，请记住在设置完 AdamOptimizer 后设置 Saver，这是因为 ADAM 也有需要恢复的状态（即对应于每个权重的学习率）。也可以结合ADAGARD等其他优化器进行尝试。ReLU ...

2018-09-01 14:42:38 2857

转载深度学习中的Attention机制

深度学习中的Attention机制本文以机器翻译为例，深入浅出地介绍了深度学习中注意力机制的原理及关键计算机制，同时也抽象出其本质思想，并介绍了注意力模型在图像及语音等领域的典型应用场景。注意力模型最近几年在深度学习各个领域被广泛使用，无论是图像处理、语音识别还是自然语言处理的各种不同类型的任务中，都很容易遇到注意力模型的身影。所以，了解注意力机制的工作原理对于关注深度学习技术发展的技术人...

2018-08-30 17:38:44 2651

原创深度神经网络的可迁移性

转载于：https://www.zhihu.com/topic/20079475/top-answershttps://blog.csdn.net/vvnzhang2095/代码部分：http://yosinski.com/transfer最初发表于NIPS 2014的《How transferable are features in deep neural networks?》。其实...

2018-08-26 10:43:24 6104

原创人脸识别之算法理论-双层异构深度神经网络

一、前言无论我们处理何种AI的问题，数据是根本，数据是AI之源。对于人脸的场景，一个大规模人脸信息库可以定义为：1.1、人脸标签信息丰富对于一张人脸图片元素而言，具有以下内容的部分标签或全信息：人脸检测信息：人脸数量、人脸坐标；人脸空间信息：俯仰角、旋转角、偏航角；人脸关键点信息：眼睛、鼻子、嘴、脸部轮廓坐标；人脸属性信息：年龄、性别...

2018-08-24 21:18:34 2688

原创自动机器学习工具全景图：精选27种框架，解放炼丹师

自动机器学习工具全景图：精选26种框架，解放炼丹师构建一个典型的机器学习项目，一般分成以下步骤：收集原始数据、合并数据源、清洗数据、特征工程、模型构建、超参数调优、模型验证和设备部署。整个过程中，模型构建最能体现创造力，而最耗时的，要数特征工程和超参数调优。于是，有时候会因为赶时间，过早将模型从实验阶段转移到生产阶段，导致它们发挥不出最佳效果；也有时候，会因为花了太多时间调优导致部...

2018-08-22 19:11:31 1498

转载只有100个标记数据，如何精确分类400万用户评论

只有100个标记数据，如何精确分类400万用户评论？来源：feedly.com迁移学习模型的思路是这样的：既然中间层可以用来学习图像的一般知识，我们可以将其作为一个大的特征化工具使用。下载一个预先训练好的模型（模型已针对ImageNet任务训练了数周时间），删除网络的最后一层（完全连接层），添加我们选择的分类器，执行适合我们的任务（如果任务是对猫和狗进行分类，就选择二元分类器），最后仅对我...

2018-08-21 09:51:36 311

原创模型优化策略

模型优化策略参考：http://nsaphra.github.io/post/model-scheduling模型可以通过在训练过程中修改它们的超参数来逐步迭代。这在迁移学习设置中是最常见的，其中，我们为一个新的领域或任务寻求适应现有模型中的知识。持续学习的更普遍的问题也是一个明显的应用。然而，即使使用预定义的数据集，迭代地约束网络的拓扑结构也可以提供像正则化那样的好处。动...

2018-08-17 09:58:12 3335

转载人工智能与大数据开发的12个注意点

人工智能与大数据开发的12个注意点1 你的数据未必可靠基于糟糕的数据来挖掘，无论多么聪明的人也永远只会获得糟糕的结果。下面列举了一些常见的可导致数据可靠性问题的因素： • 用于开发的数据，往往和实际情况下的数据分布不同。 • 你的数据集中存在很多缺失数据。 • 你的数据可能随时在变化。 • 你的数据可能没有被归一化。 • 你的数据可能并...

2018-08-16 21:57:47 498

ISC2017互联网安全大会学习与回顾

人工智能中的哲学

GAN生成对抗网络简介

deeplearningbook_ch (1-6章）纯手打

mvc案例介绍asp

空空如也