人工智能
文章平均质量分 81
superY25
来日方长,前途似海。
展开
-
《【FedBCD】A Communication-Efficient Collaborative Learning Framework for Distributed Features》论文阅读
KKK个参与方,NNN个数据样本D≜ξii1ND≜ξii1N,其中ξ≜xyξ≜xy表示为特征和label。特征向量xi∈R1×dxi∈R1×d分布在KKK个参与方中xik∈R1×dkk1Kxik∈R1×dkk1Kdkd_kdk表示参与方的特征维度。有一方参与方拥有label,假设为参与方KKK。原创 2023-12-04 20:55:21 · 160 阅读 · 0 评论 -
《PFL》论文阅读笔记
No One Idles: Efficient Heterogeneous Federated Learning with Parallel Edge and Server Computation原创 2023-11-29 12:54:32 · 434 阅读 · 0 评论 -
《NTP-VFL - A New Scheme for Non-3rd Party Vertical Federated Learning》模型原理
本文提出一个没有第三方的联邦学习LR算法,使用同态加密计算,该算法允许多方模型训练,并保证数据隐私。使用泰勒展开式作为梯度的近似形式和使用最小批量SGD更新参数训练模型。假设各方为A,Bs,C,其中Bs为可以扩展为多方的设计,A方生成密钥对,并将公钥发送给Bs和C。分别发送给B和C,然后各方更新各自的权重。原创 2023-11-02 18:04:29 · 241 阅读 · 0 评论 -
《Secure Analytics-Federated Learning and Secure Aggregation》论文阅读
风险模型假设用户和中心服务器都是诚实且好奇的。如果用户是恶意的,他们有能力在不被监测的情况下影响聚合结果。操作高维向量;不管计算中涉及到的用户子集,通信是高效的;用户dropout是robust;足够安全双重掩码的目标就是为了防止用户数据的泄露,即使当server重构出用户的masks。首先,每个用户产生一个额外的随机秘钥aua_uau,并且分布他的shares给其他的用户。生成yuy_uyuyuxuau∑uvsuv−∑uvsv。原创 2023-10-05 00:12:24 · 1236 阅读 · 0 评论 -
ydata-quality数据质量评估简单介绍
ydata-quality是一个用于数据质量的库,类似sklearn之于机器学习。通过数据多阶段流程开发评估数据质量。只要你还有可用数据,运行代码,便可得到数据的复杂并详细的全面的评估概要。DuplicatesLabelling该库主要是利用统计学和机器学习的相关知识对数据进行几个方面的整体评估。涉及到很多数据上的处理,处理方法是基于pandas和sklearn。对于大数据集处理非常慢。原创 2023-08-28 23:08:42 · 1894 阅读 · 0 评论 -
一些算法知识整理
整理的一些算法知识,包括机器学习LR、SVM、K-Means、决策树、GBDT、LightGBM、DeepFM、DIN、ESMM、DCN、MMoE、NodeVec、LSTM、Transformer、BERT。希望能帮助到找算法岗的同学。原创 2023-04-14 23:55:13 · 668 阅读 · 3 评论 -
如何评价自己的研究工作是否有价值
如何评价自己的研究工作,是否值得研究。原创 2022-11-11 16:14:59 · 453 阅读 · 0 评论 -
Spark数据分析
在互联网如此发达的今天,每天都有海量的数据产生。通过对这些的数据进行分析,我们可以挖掘出数据中的很多信息,从而获取商业价值。面对如此海量的数据,一般的统计分析技术是无法胜任的,需要使用专门的大数据分析技术。今天我们介绍目前最为流行的数据处理技术—Apache Spark。Spark是一款支持多语言的,为大规模分布式数据处理而设计的一站式引擎,它整合了各种上层库,比如用于机器学习的MLlib、提供交互式查询功能的Spark SQL、支持操作实时数据的流处理库Structured Streaming,以及图计原创 2022-01-17 00:01:09 · 3260 阅读 · 1 评论 -
BERT4Rec论文阅读笔记
通过用户的历史行为建模用户的动态兴趣偏好,对推荐系统来说,是具有挑战性且重要的。现有模型利用序列神经网络模型将用户的历史行为交互从左到右编码成隐含表示用做推荐。尽管他们的效果不错,我们认为这样从左到右的单向模型不是最优的,因为以下一些限制:a)单向架构限制了用户行为序列隐含表示的能力;b)它们经常假设一个严格有序的序列,并不总是切合实际。为了解决这些限制,我们提出了一个序列推荐模型(BERT4Rec),利用深度双向自注意力建模用户行为序列。原创 2022-11-08 18:21:19 · 454 阅读 · 1 评论 -
《机器学习》阅读笔记系列一
模型选择中的基本问题原创 2022-11-08 09:28:35 · 373 阅读 · 0 评论 -
DIN论文精读
点击率预测时工业应用中一项重要的任务,比如在线公告。最近,基于深度学习的模型被提出,类似一个Embedding&MLP的模型。在这些模型中,大规模的稀疏特征首先被映射成低维的特征向量,然后以组式的转换成固定长度的向量,最后连着一起输入到多层感知机学习特征之间的非线性关系。这种方法,用户特征被压缩成固定长度的表示向量,而忽略了候选广告是什么。这个固定长度的表示向量成了应用瓶颈,给Embedding&MLP模型从丰富的历史行为中有效学习用户多样化兴趣带来了困难。原创 2022-11-04 09:04:20 · 339 阅读 · 0 评论 -
pytorch的vgg19的预训练模型提取图片特征
vgg提取图像特征,同一张图像两次运行vgg输出不同的结果。原创 2022-10-21 17:05:08 · 2988 阅读 · 0 评论 -
DCN论文精读
特征工程对于预测模型的成功非常关键。然而,这个过程是不简单的,并且常常需要人工处理,或者大量的搜索。DNNs可以自动学习特征交互,但他们生成的都是隐式交互并且在很多特征交互的学习中并不一定有效。本文中,我们提出了Deep & Cross Network(DCN),在保持DNN模型优势的同时,引入一个新颖的交叉网络,使得学习一些有界度(bounded-degree)的特征交互更有效。尤其是,DCN显示地在每层应用特征交互,相对DNN模型只花费了极少的代价从而避免了人工特征工程。原创 2022-09-06 17:32:03 · 689 阅读 · 0 评论 -
ESMM论文精读
在工业应用如推荐或广告的排序系统中,精确地评估点击后转化率(CVR)是非常重要的。传统的CVR主要是用深度学习模型建模,并且取得非常好的效果。然而,在实际应用中遇到了一些特定任务的问题,使得CVR建模遇到了挑战。例如:传统CVR模型只用曝光被点击过的样本训练,却被应用于整个曝光样本空间进行预测。这会导致样本选择偏差的问题。此外,还存在数据极端稀疏的问题,使得模型拟合很困难。本文使用一个全新的视角建模CVR,充分利用用户行为的序列模式(曝光 --> 点击 --> 消费)。...原创 2022-08-30 16:36:02 · 317 阅读 · 0 评论 -
CTR建模常见的小知识
CTR建模的常见小知识,有关建模背后的原理,评估逻辑等转载 2022-08-23 09:27:58 · 458 阅读 · 0 评论 -
TensorFlow构建模型(TFRecord)十
TFRecord是一种存储二进制记录数据的简单格式。协议缓存是一个有效序列化结构化数据的跨平台、跨语言库,协议信息被.proto文件定义,它们常常是理解信息类型最简单的方法。信息是一个灵活的信息类型,用于表达对。它被设计和TensorFlow一起使用,并通过高级APIs使用,如TFX。本文将介绍如何创建、解析、使用信息,然后序列化、读写信息通过文件。TFRecord文件包含一个序列记录,文件只能被按顺序读取。TFRecord文件并不是必须使用。仅仅只是一个序列化字典为字节串的方法。任何字节串在Tenso原创 2022-06-15 08:48:01 · 218 阅读 · 0 评论 -
docker入门使用命令
本人电脑macbook pro,所以以下内容都是基于macos m1芯片环境。docker desktop的m1芯片版本下载地址。下载直接安装,安装平常的软件一样。docker的常用命令,使用可以显示:更多的使用教程。原创 2022-06-02 23:59:41 · 195 阅读 · 0 评论 -
TensorFlow构建模型(pandas.DataFrame数据加载)九
概要本文源自TensorFlow教程。主要讲如何使用tensorflow加载pandas DataFrame数据进行模型训练。使用心脏疾病的数据集进行一个二分类例子。本文是一个tensorflow初级入门的教程。内容较为简单,并且和之前的这篇加载csv训练模型的文章差不多,因为都是数据格式都是pandas的DataFrame。内容import pandas as pdimport tensorflow as tfSHUFFLE_BUFFER = 500BATCH_SIZE = 2csv_原创 2022-05-28 23:49:10 · 792 阅读 · 0 评论 -
TensorFlow构建模型(Numpy数据加载)八
概要本文主要讲numpy数据的加载和使用,数据文件的格式.npz。内容import numpy as npimport tensorflow as tfDATA_URL = 'https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz'path = tf.keras.utils.get_file('mnist.npz', DATA_URL)with np.load(path) as data: train_原创 2022-05-24 00:39:16 · 362 阅读 · 0 评论 -
TensorFlow构建模型(CSV数据加载)七
概要本文内容来源于TensorFlow教程文章内容主要分两个部分:从磁盘上加载数据。数据预处理成可训练数据。但是本文主要讲数据加载,对于数据预处理只简单举了几个例子。更多关于预处理的内容参见预处理层向导和指南。内容...原创 2022-05-24 00:26:11 · 1014 阅读 · 0 评论 -
TensorFlow构建模型(图片数据加载)六
本文内容来源于TensorFlow教程本文主要介绍了三种图片数据的加载和预处理方法:使用高级的Keras预处理工具(如tf.keras.utils.image_dataset_from_directory)和预处理层(如tf.keras.layers.Rescaling)从磁盘的图片目录中加载数据。使用tf.data的框架写你自己的输入通道。在TensorFlow Datasets中从可用的类别加载数据集。原创 2022-04-14 15:09:45 · 963 阅读 · 0 评论 -
TensorFlow构建模型(超参调优)五
本文主要讲模型训练过程中的超参数调优(如学习率、神经单元的个数等)。模型的参数有两类:模型超参数,比如隐藏层的数量和宽度;算法超参数,比如学习率。我们使用import keras_tuner as kt进行模型的参数调优。原创 2022-04-08 17:55:05 · 2231 阅读 · 0 评论 -
TensorFlow构建模型(保存和加载模型)四
概要本文主要讲模型构建训练过程中的保存和加载方法。主要用到了tensoflow中的tf.keras.callbacks.ModelCheckpoint内容import osimport tensorflow as tffrom tensorflow import kerasprint(tf.version.VERSION)# 加载模型训练的数据(train_images, train_labels), (test_images, test_labels) = tf.keras.data原创 2022-04-08 10:10:53 · 600 阅读 · 0 评论 -
TensorFlow模型构建(过拟合和欠拟合)三
介绍神经网络中的防止过拟合的一些常用方法,以及使用这些方法如何构建模型。原创 2022-04-07 11:56:07 · 2148 阅读 · 0 评论 -
TensorFlow构建模型二
概要本文利用tensorflow构建文本分类模型,数据集使用的是IMDB电影评论文本【数据集地址】,模型主要有四层:模型构建导入所需要的库,以及下载数据集。import matplotlib.pyplot as pltimport osimport reimport shutilimport stringimport tensorflow as tffrom tensorflow.keras import layersfrom tensorflow.keras import los原创 2022-03-31 00:15:36 · 1590 阅读 · 0 评论 -
TensorFlow构建模型一
tensorflow进行简单地模型构建原创 2022-03-30 00:21:17 · 4048 阅读 · 0 评论 -
DSSM论文精读
本文是对原文的翻译,弄懂原文每一句话的意思。声明:鉴于本人英文一般,有翻译不对的地方望指正,谢谢!题目使用点击数据为网页搜索学习深度结构的语义模型 摘要隐含语义模型,比如LSA,目的是将一个query在语义级别和它相关的文本进行映射,这是基于关键字的匹配做不到的。在本文的研究中,我们利用深度学架构搭建了一系列新的隐含语义模型,将queries和documents映射到一个公共的低维空间。被给的query和一个document的相关性通过它们的距离计算得到。本文提出的深度结构语义模型通过点击数据最大原创 2022-03-24 22:17:44 · 1083 阅读 · 0 评论 -
DMTL论文精读
本文是对原文的翻译,弄懂原文每一句话的意思。声明:鉴于本人英文一般,有翻译不对的地方望指正,谢谢!如图是模型框架图中每个模块设计在文中对应的模型定义。题目基于蒸馏的多任务学习:针对提高阅读时长的候选集生成模型摘要在feed推荐中,第一步是候选集的生成。大部分候选集生成模型都是基于CTR预估构建的,没有考虑用户点击之后的满意度。一些标题党item可能被推荐给用户,从而破坏用户体验。解决这个问题的一个方法就是同时给用户点击和用户阅读时长构建多任务学习模型。该方法有两个难点:第一是如何处理没有阅读时原创 2022-03-13 17:07:43 · 1555 阅读 · 0 评论 -
推荐系统论文粗读记录【三】
论文阅读整理【粗读】原创 2022-03-06 15:16:38 · 206 阅读 · 0 评论 -
推荐系统论文粗读记录【一】
论文阅读整理【粗读】原创 2022-02-22 00:50:13 · 267 阅读 · 0 评论 -
推荐系统论文粗读记录【二】
论文阅读整理【粗读】原创 2022-02-17 20:55:37 · 683 阅读 · 0 评论 -
【AUC】的温故而知新
今天在知乎上看了一篇文章,图解AUC原理,文章写得很容易理解。看这篇文章之后对AUC的来龙去脉又加深了一步。之前读《机器学习》比较晦涩,只记得两个公式和样本预测排序的质量。而这篇文章介绍了是如何排序,然后画出ROC曲线,并计算出AUC值。发现文中一个小问题,记录一下:这里计算auc是有个问题。在《机器学习》书中讲到AUC考虑的是样本预测的排序质量,因此它与排序误差有紧密联系,且排序“损失”如下公式:在这个里面有一项,当正负样本的预测值一样时需要加一上12Π(f(x+)=f(x−))\frac{1}原创 2022-02-16 23:37:44 · 455 阅读 · 0 评论 -
spark.sql中的Array[Struct]类型查询
背景我们要查询类似以下结构的数据,但是要筛选出指定key值的数据。解决方案一般方法将数组covers字段进行explode()操作展开,生成一个包含covers中struct类型元素的临时表,然后再将临时表中的struct类型字段的各个字段展开。最终生成一个id,key,type的表。得到这个表时便可以指定key进行查询了。但是这个方法需要进行三步,非常麻烦。使用LATERAL VIEW explode(covers) adTable AS cover可以一步到位。LATERAL VIEW介绍原创 2022-02-14 23:21:04 · 4670 阅读 · 1 评论 -
深度学习之GRU学习笔记
在之前几篇深度学习文章中转载了FC、CNN、RNN、LSTM。其中LSTM的变体GRU只是简单提了一点点。本文重新整理了一些资料详细剖析GRU的单元门控逻辑,并结合论文《Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling》分析LSTM和GRU的异同点。GRU(Gate Recurrent Unit)GRU是LSTM的变种。在LSTM的基础上将“遗忘门”、“输入门”、“输出门”变成“更新门”和“重置门”。原创 2021-08-06 01:28:46 · 1405 阅读 · 2 评论 -
机器学习之评估指标---偏差和方差
本文为阅读周志华著的《机器学习》一书中第二章第5节偏差与方差笔记。之前介绍过ROC曲线下的面积AUC值可以衡量机器学习模型的泛化能力。而“偏差-方差分解”则可以解释学习算法的泛化性能。在模型训练过程中,不同的训练集上训练得到的模型预测的结果可能不同,即使这些训练集同分布。对于一个测试样本xxx,令yDy_DyD为xxx在数据集中的标记,yyy为xxx的真实标记,f(x;D)f(x;D)f(x;D)为训练集DDD上学得模型fff在xxx上的预测输出。以回归任务为例,学习算法的期望预测为fˉ(x)=ED原创 2021-07-29 01:58:55 · 611 阅读 · 0 评论 -
机器学习之集成算法
本文介绍的集成学习算法主要的基于决策的集成学习算法:Bagging、Boosting、Stacking。他们的思想都是基于Bootstraping(自助法),是一种有放回的抽样法,是一种非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法。根据《机器学习》中的描述,自助法的思路为:给定包含mmm个样本的数据集DDD ,我们对它进行采样产生数据集 D′D'D′:每次随机从DDD中挑选一个样本,将其拷贝放入D′D'D′, 然后再将该样本放回初始数据集DDD中,使得该样本在下次采样时仍有可能被采到原创 2021-07-25 15:11:29 · 911 阅读 · 2 评论 -
【推荐算法】阿里大规模商品推荐算法
概述本文为阿里2018年发表论文《Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba》的阅读笔记论文中提出了淘宝的推荐系统面临的三个挑战:扩展性、稀疏性以及冷启动。文章中提出了改进的基于知识图谱的图表示学习技术解决这三个挑战。他们使用用户在淘宝中浏览商品的session构建知识图谱。然后利用基于游走的图表示学习算法对图谱的商品节点进行向量表示学习。最后计算商品节点之间的相似度用于推荐过程中。为了解决冷启动原创 2021-07-09 16:39:40 · 2935 阅读 · 0 评论 -
语言模型【word2vec】学习笔记
本篇文章是阅读论文《Efficient Estimation of Word Representations in Vector Space》时做的笔记,以及自己的一个理解。欢迎指正。摘要:文章中提出了两个从大规模文本集中计算词的连续向量表示的模型框架。其模型的性能通过词的相似任务验证,并且将结果和之前效果最好的基于不同类型神经网络的技术作比较。结果显示在消耗更低计算资源的情况下效果更好。word2vec中有两个模型,分别是cbow和skip-gram。用于词的向量表示。...原创 2021-06-24 16:43:20 · 168 阅读 · 0 评论 -
深度学习模型中的过拟合良方【Dropout】
Dropout是什么?Dropout是深度神经网络优化训练过程的一个算法。是由“AI教父”Geoff Hinton在其论文《Improving neural networks by preventing co-adaptation of feature detectors》中提出并在论文《Dropout: A Simple Way to Prevent Neural Networks from Overfitting》详细介绍。论文开篇就指出:当一个大的神经网络用来训练一个小的数据集时,会造成过拟合,使其原创 2021-06-15 22:32:30 · 552 阅读 · 3 评论 -
模型训练中的过拟合\欠拟合
过拟合的如何产生的?过拟合的解决办法欠拟合如何产生的?欠拟合的解决办法原创 2021-06-07 23:31:46 · 2497 阅读 · 9 评论