人工智能
文章平均质量分 79
123
博士僧小星
985博士研究生
展开
-
人工智能|预训练大模型——全球医疗大模型
谷歌和DeepMind的科研人员在《自然》杂志上发表了一项研究,根据其研究结果,一组临床医生对谷歌和DeepMind团队的医疗大模型Med-PaLM回答的评分高达92.6%,与现实中人类临床医生的水平(92.9%)相当。原创 2024-09-17 15:58:32 · 1816 阅读 · 0 评论 -
人工智能|集成学习——混合专家模型 (MoE)
与稠密模型相比,预训练速度更快与具有相同参数数量的模型相比,具有更快的推理速度需要大量显存,因为所有专家系统都需要加载到内存中在微调方面存在诸多挑战,但 近期的研究 表明,对混合专家模型进行指令调优具有很大的潜力。为了实现大模型的高效训练和推理,有的是从模型底层下手,比如直接改变底层模型架构,将原来的Transformer架构改成近期新出的基于状态空间模型(SSM)的mamba架构;原创 2024-09-12 11:21:44 · 1330 阅读 · 0 评论 -
人工智能|深度学习——常用的神经网络优化算法(从梯度下降到 Adam!)
优化算法的功能,是通过改善训练方式,来最小化(或最大化)损失函数E(x)。模型内部有些参数,是用来计算测试集中目标值Y的真实值和预测值的偏差程度的,基于这些参数,就形成了损失函数E(x)。比如说,权重(W)和偏差(b)就是这样的内部参数,一般用于计算输出值,在训练神经网络模型时起到主要作用。在有效地训练模型并产生准确结果时,模型的内部参数起到了非常重要的作用。这也是为什么我们应该用各种优化策略和算法,来更新和计算影响模型训练和模型输出的网络参数,使其逼近或达到最优值。原创 2024-07-15 11:44:18 · 993 阅读 · 0 评论 -
人工智能|深度学习——YOLOV8结构图
YOLOV8原创 2024-05-15 23:13:47 · 402 阅读 · 0 评论 -
人工智能|机器学习——14种数据异常监测方法
本文收集整理了公开网络上一些常见的异常检测方法(附资料来源和代码)。不足之处,还望批评指正。原创 2024-05-15 16:25:40 · 883 阅读 · 0 评论 -
人工智能|深度学习——PlotNeuralNet简单教程
是一个强大的开源Python库,它专为简化和美化神经网络图的绘制而设计。原创 2024-05-10 23:33:07 · 1136 阅读 · 0 评论 -
人工智能|推荐系统——工业界的推荐系统之涨指标
三、涨指标的方法:排序模型五、涨指标的方法:特殊对待特殊人群六、涨指标的方法:利用交互行为。原创 2024-05-09 14:53:44 · 201 阅读 · 0 评论 -
人工智能|推荐系统——工业界的推荐系统之冷启动
UGC的物品冷启有哪些⼩红书上⽤户新发布的笔记。B站上⽤户新上传的视频。今⽇头条上作者新发布的⽂章。为什么要特殊对待新笔记?新笔记缺少与⽤户的交互,导致推荐的难度⼤、效果差。扶持新发布、低曝光的笔记,可以增强作者发布意愿。优化冷启的目标精准推荐:克服冷启的困难,把新笔记推荐给合适的⽤户,不引起⽤户反感。激励发布:流量向低曝光新笔记倾斜,激励作者发布。挖掘⾼潜:通过初期⼩流量的试探,找到⾼质量的笔记,给与流量倾斜。原创 2024-05-09 14:11:10 · 404 阅读 · 0 评论 -
人工智能|推荐系统——工业界的推荐系统之重排
基于物品属性标签基于物品向量表征 ⽤召回的双塔模型学到的物品向量(不好)原创 2024-05-08 13:42:37 · 243 阅读 · 0 评论 -
人工智能|推荐系统——工业界的推荐系统之序列建模
对LastN物品ID做embedding,得到 𝑛 个向量。把 𝑛 个向量取平均,作为⽤户的⼀种特征。适⽤于召回双塔模型、粗排三塔模型、精排模型。原创 2024-05-08 13:29:09 · 222 阅读 · 0 评论 -
人工智能|机器学习——强大的 Scikit-learn 可视化让模型说话
使用 utils.discovery.all_displays 查找可用的 API。Sklearn 的可以让你看到哪些类可以使用。Scikit-learn (sklearn) 总是会在新版本中添加 "Display "API,因此这里可以了解你的版本中有哪些可用的 API。原创 2024-05-07 23:14:04 · 1124 阅读 · 1 评论 -
人工智能|推荐系统——工业界的推荐系统之交叉
SENet 对离散特征做field-wise加权,如果有𝑚 个fields,那么权重向量是𝑚 维。FiBiNet可以理解为同时考虑了SENet 结合 Field 间特征交叉。之前提到过的召回、排序模型中的神经网络可以用任意网络结构;LHUC起源于语⾳识别,快⼿将LHUC应⽤在推荐精排,称作PPNet。深度交叉网络就是两个分支,一边是全连接,一边是交叉网络。线性模型预测是特征的加权和。交叉网络就是多个交叉层串起来的网络。可以通过矩阵分解减少模型参数量。Field 间特征交叉。原创 2024-05-06 10:16:41 · 338 阅读 · 3 评论 -
人工智能|推荐系统——工业界的推荐系统之排序
完播率通常和视频时长有关,不能直接把预估的完播率⽤到融分公式。训练时通常会遇到类别不平衡问题,可以考虑做采样。多目标有多个预估分数就可以有不同融合方式。进一步考虑对多个神经网络的输出进行加权。可以通过dropout的方式来解决极化。预测概率和实际是否交互求交叉熵损失。多目标模型就是要预测多个目标。几个专家就是放几个神经网络。视频完播用回归或分类都可以。通常做个调整再用到融分公式。双塔模型牺牲准确性换计算量。可以通过校准公式进行校准。精排模型的线上推理代价大。回顾一下推荐系统的链路。可能会出现极化的现象。原创 2024-05-06 09:36:10 · 307 阅读 · 0 评论 -
人工智能|推荐系统——工业界的推荐系统之召回
离散特征可以用Embedding Layers,连续特征可以归一化、分桶等处理。Swing额外考虑重合的⽤户是否来⾃⼀个⼩圈⼦,两个⽤户重合度⼤,则可能来⾃⼀个⼩圈⼦,权重降低。简单负样本可以是全体物品(考虑非均匀采样打压热门物品)或者Batch内负样本。⽤户兴趣动态变化,⽽物品特征相对稳定,事先存储物品向量𝐛,线上现算⽤户向量𝐚。困难负样本主要考虑被召回,但是被排序淘汰的样本。一个物品的两个向量可以通过一些特征变换得到。⽤索引,离线计算量⼤,线上计算量⼩。正样本的选择需要考虑冷门、热门物品。原创 2024-05-04 10:26:54 · 410 阅读 · 0 评论 -
人工智能|推荐系统——工业界的推荐系统之概要
但是随机分桶的问题在于无法做多个实验,因此通常考虑分层实验,同层互斥就是做的分桶,不同层正交可以避免不同实验之间的干扰,就可以做无数组实验。实验推全是逐步将新推荐策略应用到所有用户的过程,而反转实验是通过将部分用户回退到旧策略来评估新策略的有效性。粗排、精排会考虑用户特征、物品特征、统计特征来建模,同时考虑多个消费指标,然后得到一个最终的排序分数。通常会考虑用户的一些消费指标。原创 2024-05-02 23:41:55 · 235 阅读 · 0 评论 -
科研学习|论文解读——CVPR 2021 人脸造假检测(论文合集)
deepfake的人脸伪造技术在互联网上广泛传播,并引起了严重的社会关注。近年来,如何检测此类伪造内容已成为一个研究热点,并提出了许多深度伪造检测方法。其中,大多数将深度伪造检测建模为普通的二元分类问题,即首先使用骨干网络提取全局特征,然后将其输入二元分类器(real/fake)。但由于这个任务中,真实图像和虚假图像之间的差异通常是微妙和局部的,我们认为这种香草解决方案不是最优的。在本文中,我们将深度伪造检测描述为一个细粒度的分类问题,并提出了一种新的多注意力深度伪造检测网络。原创 2024-04-28 15:42:39 · 2182 阅读 · 0 评论 -
人工智能|推荐系统——推荐系统经典模型YouTubeDNN
我们可以把召回模型的结构分为三层。输入层:输入层总共有四种特征。用户看过视频的 Embedding(embedded video watches)用户搜索的关键词的 Embedding 向量(embedded search tokens)用户所在的地理位置的特征(geographic embedding)适用于冷启动用户基本特征(example age, gender)原创 2024-04-27 22:11:16 · 742 阅读 · 0 评论 -
人工智能|推荐系统——推荐大模型最新进展
Embedding 已成为表示关于实体、概念和关联的复杂的信息的关键手段,并以简洁且有用的格式呈现。然而,它们通常难以直接进行解释。尽管下游任务利用这些压缩表示,但要进行有意义的解释通常需要使用降维或专门的机器学习可解释性方法进行可视化。本文解决了使这些嵌入更具解释性和广泛实用性的挑战,通过利用大语言模型(LLMs)直接与嵌入进行交互,将抽象向量转化为可理解的叙述。通过将嵌入注入LLMs,我们使复杂的嵌入数据可以进行查询和探索。原创 2024-04-27 21:56:52 · 1206 阅读 · 0 评论 -
人工智能|深度学习——多模态条件机制 Cross Attention 原理及实现
虽然之前写过 Attention 的文章,但现在回头看之前写的一些文章,感觉都好啰嗦,正好下一篇要写的 Stable Diffusion 中有 cross-attention,索性就再单拎出来简单说一下 Attention 吧,那么这篇文章的作用有两个:第一是为 Stable Diffusion 做补充,第二是为后续的 Vision Transformer 和 Swin Transformer 做铺垫。原创 2024-04-25 10:40:17 · 10009 阅读 · 1 评论 -
人工智能|tensorflow2.0框架——在TensorFlow2.0中使用TensorFlow1.0的代码
使用import tensorflow.compat.v1 as tf来导入TensorFlow 1.x的兼容性模块,并通过tf.disable_v2_behavior()来禁用TensorFlow 2.0的行为。原创 2024-04-21 16:53:20 · 224 阅读 · 0 评论 -
人工智能|机器学习——基于机器学习的信用卡办卡意愿模型预测项目
通过本项目,我们使用了机器学习模型预测了客户的信用卡办卡意愿,并通过Django实现了数据的可视化展示。这使得银行和金融机构能够更好地理解客户行为模式,并做出相应的业务决策。原创 2024-04-13 22:12:09 · 836 阅读 · 1 评论 -
人工智能|深度学习——基于Xception实现戴口罩人脸表情识别
Xception是Google公司继Inception后提出的对 Inception-v3 的另一种改进。作者认为,通道之间的相关性与空间相关性最好要分开处理。于是采用 Separable Convolution来替换原来 Inception-v3中的卷积操作。传统卷积的实现过程:Depthwise Separable Convolution 的实现过程:深度可分离卷积 Depthwise Separable Convolution。原创 2024-04-03 13:52:33 · 1184 阅读 · 2 评论 -
人工智能|深度学习——基于Xception算法模型实现一个图像分类识别系统
在计算机视觉领域,图像识别是一个非常重要的任务,其应用涵盖了人脸识别、物体检测、场景理解等众多领域。随着深度学习技术的发展,深度卷积神经网络(Convolutional Neural Networks,简称CNN)在图像识别任务上取得了巨大成功,其中Xception算法作为一种改进型CNN,被广泛应用于图像分类和特征提取任务。本章节将重点介绍Xception算法的背景、原理及其在图像识别系统中的应用。原创 2024-04-02 23:03:05 · 1526 阅读 · 1 评论 -
人工智能|推荐系统——搜索引擎广告
随着人工智能应用的日益广泛,搜索引擎供应商越来越多地要求广告商使用基于机器学习的自动竞价策略。这样的自动决策系统让广告商对所使用的数据以及它们如何影响决策过程的结果一无所知。以前关于人工智能的文献缺乏对与人工智能系统相关的危险及其缺乏透明度的理解。针对这一问题,本文研究了搜索引擎广告中广告主竞价策略自动优化的内在风险。因此,所选服务公司的实证案例说明了数据可用性如何引发广告绩效的长期下降,以及搜索引擎广告绩效指标在数据稀缺事件前后的发展情况。原创 2024-03-29 11:04:42 · 1442 阅读 · 0 评论 -
人工智能|机器学习——CURE聚类算法(层次聚类)
绝大多数聚类算法或者擅长处理球形和相似大小的聚类.或者在存在孤立点时变得比较脆弱。CURE采用了一种新颖的层次聚类算法.该算法选择基于质心和基于代表对象方法之间的中间策略。它不同于单个质心或对象来代表一个类,而是选择数据空间中固定数目的具有代表性的点。一个类的代表点通过如下方式产生:首先选择类中分散的对象,然后根据一个特定的分数或收缩因子“收缩”或移动它们。在算法的每一步,有最近距离的代表点对(每个点来自于一个不同的类)的两个类被合并。每个类有多于一个的代表点使得CURE可以适应非球形的几何形状。原创 2024-03-14 14:39:31 · 1672 阅读 · 0 评论 -
人工智能|机器学习——BIRCH聚类算法(层次聚类)
这里再来看看另外一种常见的聚类算法BIRCH。BIRCH算法比较适合于数据量大,类别数K也比较多的情况。它运行速度很快,只需要单遍扫描数据集就能进行聚类。BIRCH的全称是利用层次方法的平衡迭代规约和聚类(Balanced Iterative Reducing and Clustering Using Hierarchies),其实只要明白它是用层次方法来聚类和规约数据就可以了。BIRCH只需要单遍扫描数据集就能进行聚类,那它是怎么做到的呢?BIRCH算法利用了一个树结构来帮助实现快速的聚类,这个数结构类似原创 2024-03-13 12:45:44 · 1527 阅读 · 1 评论 -
人工智能|机器学习——DBSCAN聚类算法(密度聚类)
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的聚类算法,簇集的划定完全由样本的聚集程度决定。聚集程度不足以构成簇落的那些样本视为噪声点,因此DBSCAN聚类的方式也可以用于异常点的检测。原创 2024-03-09 22:02:54 · 4063 阅读 · 2 评论 -
人工智能|机器学习——K-means系列聚类算法k-means/ k-modes/ k-prototypes/ ......(划分聚类)
k-means算法是一种简单且实用的聚类算法,但是传统的k-means算法只适用于连续属性的数据集(数值型数据),而对于离散属性的数据集,计算簇的均值以及点之间的欧式距离就变得不合适了。k-modes作为k-means的一种扩展(变种),距离使用汉明距离,适用于离散属性的数据集。原创 2024-03-09 12:45:37 · 4634 阅读 · 1 评论 -
人工智能|机器学习——Canopy聚类算法(密度聚类)
Canopy聚类算法是一个将对象分组到类的简单、快速、精确地方法。每个对象用多维特征空间里的一个点来表示。这个算法使用一个快速近似距离度量和两个距离阈值T1 > T2 处理。Canopy聚类很少单独使用, 一般是作为k-means前不知道要指定k为何值的时候,用Canopy聚类来判断k的取值。原创 2024-03-08 23:06:38 · 1512 阅读 · 0 评论 -
人工智能|机器学习——k-近邻算法(KNN分类算法)
1.K-近邻算法伪代码:①计算已知类别数据集中的点与当前点之间的距离②按照距离递增次序排序③选择与当前点距离最小的k个点④确定前k个点所在类别(标签)的出现频率⑤返回前k个点出现频率最高的类别作为当前点的预测分类2.K-近邻算法程序清单:...原创 2024-03-08 22:54:38 · 1564 阅读 · 1 评论 -
人工智能|深度学习——基于数字图像处理和深度学习的车牌定位
基于深度学习的车牌识别与定位原创 2024-02-20 18:10:33 · 1663 阅读 · 1 评论 -
人工智能|深度学习——基于对抗网络的室内定位系统
基于对抗网络的室内定位系统原创 2024-02-19 14:59:33 · 2109 阅读 · 4 评论 -
人工智能|机器学习——基于机器学习的舌苔检测
基于机器学习的舌苔检测原创 2024-02-19 12:29:09 · 2670 阅读 · 0 评论 -
人工智能|推荐系统——基于tensorflow的个性化电影推荐系统实战(有前端)
基于tensorflow的个性化电影推荐系统实战(有前端)原创 2024-02-07 13:13:34 · 1854 阅读 · 0 评论 -
人工智能|深度学习——基于全局注意力的改进YOLOv7-AC的水下场景目标检测系统
基于全局注意力的改进YOLOv7-AC的水下场景目标检测系统原创 2024-02-06 22:38:26 · 1890 阅读 · 1 评论 -
人工智能|深度学习——使用多层级注意力机制和keras实现问题分类
词向量”(词嵌入)是将一类将词的语义映射到向量空间中去的自然语言处理技术。即将一个词用特定的向量来表示,向量之间的距离(例如,任意两个向量之间的L2范式距离或更常用的余弦距离)一定程度上表征了的词之间的语义关系。由这些向量形成的几何空间被称为一个嵌入空间。传统的独热表示( one-hot representation)仅仅将词符号化,不包含任何语义信息。必须考虑将语义融入到词表示中。解决办法将原来稀疏的巨大维度压缩嵌入到一个更小维度的空间进行分布式表示。这也是词向量又名词嵌入的缘由了。原创 2024-02-06 12:07:03 · 1626 阅读 · 0 评论 -
人工智能|深度学习——知识蒸馏
人工智能|深度学习——知识蒸馏原创 2023-12-08 23:43:25 · 970 阅读 · 0 评论 -
人工智能|网络爬虫——用Python爬取电影数据并可视化分析
1.2016年-2019年电影数量逐渐增大,2019年达到最大值,从2020年开始迅速逐年下降。2.发布电影数量最多的国家是中国和美国。3.电影类型最多的剧情片。4.电影片长呈正态分布,且片长和评分呈正相关关系。原创 2023-12-05 00:05:21 · 20266 阅读 · 2 评论 -
人工智能|机器学习——感知器算法原理与python实现
人工智能|机器学习——感知器算法原理与python实现原创 2023-11-28 23:33:09 · 1287 阅读 · 0 评论 -
人工智能|机器学习——机器学习如何判断模型训练是否充分
人工智能|机器学习——机器学习如何判断模型训练是否充分原创 2023-11-28 22:54:32 · 1702 阅读 · 0 评论