superY25-CSDN博客

原创《【FedBCD】A Communication-Efficient Collaborative Learning Framework for Distributed Features》论文阅读

KKK个参与方，NNN个数据样本D≜ξii1ND≜ξii1N，其中ξ≜xyξ≜xy表示为特征和label。特征向量xi∈R1×dxi∈R1×d分布在KKK个参与方中xik∈R1×dkk1Kxik∈R1×dkk1Kdkd_kdk表示参与方的特征维度。有一方参与方拥有label，假设为参与方KKK。

2023-12-04 20:55:21 143

原创《PFL》论文阅读笔记

No One Idles: Efficient Heterogeneous Federated Learning with Parallel Edge and Server Computation

2023-11-29 12:54:32 423

原创《NTP-VFL - A New Scheme for Non-3rd Party Vertical Federated Learning》模型原理

本文提出一个没有第三方的联邦学习LR算法，使用同态加密计算，该算法允许多方模型训练，并保证数据隐私。使用泰勒展开式作为梯度的近似形式和使用最小批量SGD更新参数训练模型。假设各方为A，Bs，C，其中Bs为可以扩展为多方的设计，A方生成密钥对，并将公钥发送给Bs和C。分别发送给B和C，然后各方更新各自的权重。

2023-11-02 18:04:29 236

原创《Secure Analytics-Federated Learning and Secure Aggregation》论文阅读

风险模型假设用户和中心服务器都是诚实且好奇的。如果用户是恶意的，他们有能力在不被监测的情况下影响聚合结果。操作高维向量；不管计算中涉及到的用户子集，通信是高效的；用户dropout是robust；足够安全双重掩码的目标就是为了防止用户数据的泄露，即使当server重构出用户的masks。首先，每个用户产生一个额外的随机秘钥aua_uau，并且分布他的shares给其他的用户。生成yuy_uyuyuxuau∑uvsuv−∑uvsv。

2023-10-05 00:12:24 1230

原创 pandas和polars简单的对比分析

pandas是基于python写的，底层的数据结构是Numpy数据(ndarray)。pandas自身有两个核心的数据结构：DataFrame和Series，前者是二维的表格数据结构，后者是一维标签化数组。polars是用Rust（一种系统级编程语言，具有非常好的并发性和性能）写的，支持Python、Rust和NodeJS。

2023-08-29 00:44:15 723

原创 ydata-quality数据质量评估简单介绍

ydata-quality是一个用于数据质量的库，类似sklearn之于机器学习。通过数据多阶段流程开发评估数据质量。只要你还有可用数据，运行代码，便可得到数据的复杂并详细的全面的评估概要。DuplicatesLabelling该库主要是利用统计学和机器学习的相关知识对数据进行几个方面的整体评估。涉及到很多数据上的处理，处理方法是基于pandas和sklearn。对于大数据集处理非常慢。

2023-08-28 23:08:42 1867

原创《基于同态加密和秘密分享的纵向联邦LR协议研究》论文阅读

提出了一种新颖的两方纵向联邦逻辑回归协议,并在半诚实安全模型下证明了该协议的安全性, 包括模型训练流程和模型推理流程的安全性,且无需对非线性函数使用多项式近似计算,从而保证了联邦逻辑回归协议模型无损。本文提出的联邦逻辑回归算法实现，主要研究的两方的联邦，但在安全性分析中说明在多方场景中，只要不超过一方不诚实的情况也是安全。本文的实现逻辑并不复杂，主要贡献在提出了本文的这种实现逻辑，并论证该逻辑在指定场景下保护了多方的数据安全性。

2023-06-24 10:54:37 934 6

原创 DPdisPCA算法原理笔记

概要本文简单理顺《Differentially Private Distributed Principal Component Analysis》论文中的算法原理，它主要提出了一种基于差分隐私的分布式PCA算法，研究了该算法在实验数据以及真实数据中的表现，在参数相同的情况下本算法取得了和没有隐私保护的算法相同级别的效果。算法原理一些数学公式上的符号定义：1、SSS表示分布式中有SSS个站点；2、每个站点的数据集D×NsD\times N_sD×Ns其中s∈[S]s \in [S]s∈[S]表示有

2023-06-18 14:13:38 351

原创《横向联邦学习中 PCA差分隐私数据发布算法》论文算法原理笔记

横向联邦学习PCA降维

2023-06-11 02:27:12 917

原创一些算法知识整理

整理的一些算法知识，包括机器学习LR、SVM、K-Means、决策树、GBDT、LightGBM、DeepFM、DIN、ESMM、DCN、MMoE、NodeVec、LSTM、Transformer、BERT。希望能帮助到找算法岗的同学。

2023-04-14 23:55:13 663 3

原创如何评价自己的研究工作是否有价值

如何评价自己的研究工作，是否值得研究。

2022-11-11 16:14:59 448

原创 BERT4Rec论文阅读笔记

通过用户的历史行为建模用户的动态兴趣偏好，对推荐系统来说，是具有挑战性且重要的。现有模型利用序列神经网络模型将用户的历史行为交互从左到右编码成隐含表示用做推荐。尽管他们的效果不错，我们认为这样从左到右的单向模型不是最优的，因为以下一些限制：a)单向架构限制了用户行为序列隐含表示的能力；b)它们经常假设一个严格有序的序列，并不总是切合实际。为了解决这些限制，我们提出了一个序列推荐模型（BERT4Rec），利用深度双向自注意力建模用户行为序列。

2022-11-08 18:21:19 396 1

原创《机器学习》阅读笔记系列一

模型选择中的基本问题

2022-11-08 09:28:35 372

原创 DIN论文精读

点击率预测时工业应用中一项重要的任务，比如在线公告。最近，基于深度学习的模型被提出，类似一个Embedding&MLP的模型。在这些模型中，大规模的稀疏特征首先被映射成低维的特征向量，然后以组式的转换成固定长度的向量，最后连着一起输入到多层感知机学习特征之间的非线性关系。这种方法，用户特征被压缩成固定长度的表示向量，而忽略了候选广告是什么。这个固定长度的表示向量成了应用瓶颈，给Embedding&MLP模型从丰富的历史行为中有效学习用户多样化兴趣带来了困难。

2022-11-04 09:04:20 335

原创 pytorch的vgg19的预训练模型提取图片特征

vgg提取图像特征，同一张图像两次运行vgg输出不同的结果。

2022-10-21 17:05:08 2927

原创 DCN论文精读

特征工程对于预测模型的成功非常关键。然而，这个过程是不简单的，并且常常需要人工处理，或者大量的搜索。DNNs可以自动学习特征交互，但他们生成的都是隐式交互并且在很多特征交互的学习中并不一定有效。本文中，我们提出了Deep & Cross Network（DCN），在保持DNN模型优势的同时，引入一个新颖的交叉网络，使得学习一些有界度（bounded-degree）的特征交互更有效。尤其是，DCN显示地在每层应用特征交互，相对DNN模型只花费了极少的代价从而避免了人工特征工程。

2022-09-06 17:32:03 674

原创 ESMM论文精读

在工业应用如推荐或广告的排序系统中，精确地评估点击后转化率（CVR）是非常重要的。传统的CVR主要是用深度学习模型建模，并且取得非常好的效果。然而，在实际应用中遇到了一些特定任务的问题，使得CVR建模遇到了挑战。例如：传统CVR模型只用曝光被点击过的样本训练，却被应用于整个曝光样本空间进行预测。这会导致样本选择偏差的问题。此外，还存在数据极端稀疏的问题，使得模型拟合很困难。本文使用一个全新的视角建模CVR，充分利用用户行为的序列模式（曝光 --> 点击 --> 消费）。...

2022-08-30 16:36:02 306

转载 CTR建模常见的小知识

CTR建模的常见小知识，有关建模背后的原理，评估逻辑等

2022-08-23 09:27:58 430

原创 TensorFlow构建模型（TFRecord）十

TFRecord是一种存储二进制记录数据的简单格式。协议缓存是一个有效序列化结构化数据的跨平台、跨语言库，协议信息被.proto文件定义，它们常常是理解信息类型最简单的方法。信息是一个灵活的信息类型，用于表达对。它被设计和TensorFlow一起使用，并通过高级APIs使用，如TFX。本文将介绍如何创建、解析、使用信息，然后序列化、读写信息通过文件。TFRecord文件包含一个序列记录，文件只能被按顺序读取。TFRecord文件并不是必须使用。仅仅只是一个序列化字典为字节串的方法。任何字节串在Tenso

2022-06-15 08:48:01 214

原创 docker入门使用命令

本人电脑macbook pro，所以以下内容都是基于macos m1芯片环境。docker desktop的m1芯片版本下载地址。下载直接安装，安装平常的软件一样。docker的常用命令，使用可以显示：更多的使用教程。

2022-06-02 23:59:41 191

原创 TensorFlow构建模型（pandas.DataFrame数据加载）九

概要本文源自TensorFlow教程。主要讲如何使用tensorflow加载pandas DataFrame数据进行模型训练。使用心脏疾病的数据集进行一个二分类例子。本文是一个tensorflow初级入门的教程。内容较为简单，并且和之前的这篇加载csv训练模型的文章差不多，因为都是数据格式都是pandas的DataFrame。内容import pandas as pdimport tensorflow as tfSHUFFLE_BUFFER = 500BATCH_SIZE = 2csv_

2022-05-28 23:49:10 769

原创 TensorFlow构建模型（Numpy数据加载）八

概要本文主要讲numpy数据的加载和使用，数据文件的格式.npz。内容import numpy as npimport tensorflow as tfDATA_URL = 'https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz'path = tf.keras.utils.get_file('mnist.npz', DATA_URL)with np.load(path) as data: train_

2022-05-24 00:39:16 357

原创 TensorFlow构建模型（CSV数据加载）七

概要本文内容来源于TensorFlow教程文章内容主要分两个部分：从磁盘上加载数据。数据预处理成可训练数据。但是本文主要讲数据加载，对于数据预处理只简单举了几个例子。更多关于预处理的内容参见预处理层向导和指南。内容...

2022-05-24 00:26:11 1001

原创 TensorFlow构建模型（图片数据加载）六

本文内容来源于TensorFlow教程本文主要介绍了三种图片数据的加载和预处理方法：使用高级的Keras预处理工具（如tf.keras.utils.image_dataset_from_directory）和预处理层（如tf.keras.layers.Rescaling）从磁盘的图片目录中加载数据。使用tf.data的框架写你自己的输入通道。在TensorFlow Datasets中从可用的类别加载数据集。

2022-04-14 15:09:45 948

原创 TensorFlow构建模型（超参调优）五

本文主要讲模型训练过程中的超参数调优（如学习率、神经单元的个数等）。模型的参数有两类：模型超参数，比如隐藏层的数量和宽度；算法超参数，比如学习率。我们使用import keras_tuner as kt进行模型的参数调优。

2022-04-08 17:55:05 2223

原创 TensorFlow构建模型（保存和加载模型）四

概要本文主要讲模型构建训练过程中的保存和加载方法。主要用到了tensoflow中的tf.keras.callbacks.ModelCheckpoint内容import osimport tensorflow as tffrom tensorflow import kerasprint(tf.version.VERSION)# 加载模型训练的数据(train_images, train_labels), (test_images, test_labels) = tf.keras.data

2022-04-08 10:10:53 595

原创 TensorFlow模型构建（过拟合和欠拟合）三

介绍神经网络中的防止过拟合的一些常用方法，以及使用这些方法如何构建模型。

2022-04-07 11:56:07 2137

原创 TensorFlow构建模型二

概要本文利用tensorflow构建文本分类模型，数据集使用的是IMDB电影评论文本【数据集地址】，模型主要有四层：模型构建导入所需要的库，以及下载数据集。import matplotlib.pyplot as pltimport osimport reimport shutilimport stringimport tensorflow as tffrom tensorflow.keras import layersfrom tensorflow.keras import los

2022-03-31 00:15:36 1577

原创 TensorFlow构建模型一

tensorflow进行简单地模型构建

2022-03-30 00:21:17 4030

原创 DSSM论文精读

本文是对原文的翻译，弄懂原文每一句话的意思。声明：鉴于本人英文一般，有翻译不对的地方望指正，谢谢！题目使用点击数据为网页搜索学习深度结构的语义模型摘要隐含语义模型，比如LSA，目的是将一个query在语义级别和它相关的文本进行映射，这是基于关键字的匹配做不到的。在本文的研究中，我们利用深度学架构搭建了一系列新的隐含语义模型，将queries和documents映射到一个公共的低维空间。被给的query和一个document的相关性通过它们的距离计算得到。本文提出的深度结构语义模型通过点击数据最大

2022-03-24 22:17:44 1069

原创 DMTL论文精读

本文是对原文的翻译，弄懂原文每一句话的意思。声明：鉴于本人英文一般，有翻译不对的地方望指正，谢谢！如图是模型框架图中每个模块设计在文中对应的模型定义。题目基于蒸馏的多任务学习：针对提高阅读时长的候选集生成模型摘要在feed推荐中，第一步是候选集的生成。大部分候选集生成模型都是基于CTR预估构建的，没有考虑用户点击之后的满意度。一些标题党item可能被推荐给用户，从而破坏用户体验。解决这个问题的一个方法就是同时给用户点击和用户阅读时长构建多任务学习模型。该方法有两个难点：第一是如何处理没有阅读时

2022-03-13 17:07:43 1541

原创推荐系统论文粗读记录【三】

论文阅读整理【粗读】

2022-03-06 15:16:38 203

原创推荐系统论文粗读记录【一】

论文阅读整理【粗读】

2022-02-22 00:50:13 262

原创推荐系统论文粗读记录【二】

论文阅读整理【粗读】

2022-02-17 20:55:37 677

原创【AUC】的温故而知新

今天在知乎上看了一篇文章，图解AUC原理，文章写得很容易理解。看这篇文章之后对AUC的来龙去脉又加深了一步。之前读《机器学习》比较晦涩，只记得两个公式和样本预测排序的质量。而这篇文章介绍了是如何排序，然后画出ROC曲线，并计算出AUC值。发现文中一个小问题，记录一下：这里计算auc是有个问题。在《机器学习》书中讲到AUC考虑的是样本预测的排序质量，因此它与排序误差有紧密联系，且排序“损失”如下公式：在这个里面有一项，当正负样本的预测值一样时需要加一上12Π(f(x+)=f(x−))\frac{1}

2022-02-16 23:37:44 447

设计模式.pdf

空空如也