自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(185)
  • 收藏
  • 关注

原创 pyspark groupby

两者结果可能不同,具体取决于数据列中是否包含。假设我们有以下 DataFrame。某一列只会统计该列的非空值,而。在 PySpark 中,对于。在一般情况下是不一样的。

2024-08-06 11:39:35 316

原创 pointwise pairwise

https://blog.csdn.net/liudianzhi8880/article/details/116034345

2024-07-29 11:50:45 431

原创 pointwise pairwise

https://blog.csdn.net/liudianzhi8880/article/details/116034345

2024-07-16 19:05:10 79

原创 交叉熵损失函数

参考链接:

2024-07-11 15:51:02 299

原创 浅析Estimator、model_fn与EstimatorSpec

Estimator是高层接口,用于管理和运行模型。model_fn是用户定义的函数,用于构建模型的计算图并返回。定义了模型在不同模式下的行为,由model_fn返回,并由Estimator使用。

2024-07-02 17:30:24 878

原创 [论文阅读] ZeRo

zero主要用于数据并行对于大模型来说,内存主要用来保存模型状态,主要有半精度训练:模型某层的w,和层的输入输出,都使用fp16例如,Wx = y ,这三者都是fp16但是有一个问题,fp16通常精度不够,加着加着就炸了,或者,太小的情况一直加都是0。这个情况在累积权重(不断把梯度的东西加进来)的时候会出现,所以如果权重也是fp16的话,可能加半天都加不动。所以权重更新使用fp32,也即是权重还有一个fp32的copy,作梯度更新的时候使用fp32,然后转成fp16,再参与前向后向计算。

2024-06-04 15:48:09 388

原创 centos7 切换gcc9 并配置ccache

centos 自带 gcc 版本太老,希望升级首先安装新的gcc,g++等为了永久切换到GCC 9,你可以将相关的命令添加到你的shell启动脚本中。这里以bash为例,如果你使用其他shell(例如zsh),可以相应地调整。

2024-05-30 17:50:00 365

原创 centos7 安装高版本 clang11

tools/clang/build/通过这些步骤,您可以在目录中构建LLVM和Clang,而不会干扰源代码目录。这种方法使得管理和切换不同的构建配置变得更加容易。

2024-05-30 17:30:52 403

原创 KNN算法 比较

在最后一轮(第9-10行)中,对每个silo执行明文范围查询(plaintext range query)PRQFi(circle(p,thres)),我们使用secure set union来获得最终结果。Alg.2采用W(W>1)个循环来计算第4-8行中的最终结果,并且每个循环决定k/W个最近邻居(k/W NN)。在每次迭代中,第3行中的thres设置为(l+u)/2。在第3-5行中,我们使用半径ri表示到查询位置lq的第k个最近距离,使用areai表示到中心lq的半径为ri的圆的面积。

2024-05-28 10:55:22 764

原创 Secure Operation

此时,tset3 = {1, 2, 3, 4, 5, 6, 7},它等于 set1, set2 和 set3 的并集。在正式开始安全求和操作之前,每对数据拥有者 Si 和 Sj (i < j) 需要事先秘密协商一个随机数 sci,j。接下来,每个数据拥有者根据公式 perturb 自己的值:(加上比自己大的id的协商值,减去比自己小的协商值)通过这种方式,算法在保证数据隐私的前提下,成功地计算出了多个数据拥有者的集合并集。通过这种方式,算法在保证数据隐私的前提下,成功地计算出了多个数据拥有者的值的和。

2024-05-28 10:50:18 554

原创 【论文阅读】High-Dimensional Approximate Nearest Neighbor Search: with Reliable and Efficient DCO

如第1节所述,DCO大量参与许多AKNN算法。这些算法通过计算o的距离并将距离与r进行比较,自然地对对象o和距离r进行DCO。我们将这种传统方法称为FDScanning,因为它使用o的所有维度来计算距离。显然,FDScanning具有O(D)的时间复杂性。接下来,我们回顾了现有的AKNN算法,并从理论和经验上验证了DCO在这些算法中的关键作用。

2024-05-21 18:00:37 661

原创 GPS 与 UTM 坐标转换

例如 porto 某处经纬度 为 (-8.618643, 41.141412),输入相应的经纬度,则查询到UTM Zone为29T,29表示此处属于第29条经度带,T表示纬度带为T带(这个一般没用,29才是重要信息)东距和北距用于描述地理笛卡尔坐标系里的任意点的坐标。东距描述X坐标,北距描述Y坐标。这一对直角坐标通常在大地基准面上测量得到,单位是米。任意位置的坐标都可以用一对笛卡尔坐标表示。根据惯例,东距在前,北距在后。然后我们在网站中查询29N,(北半球为N)(南半球为S)UTM 带 快速查询。

2024-03-01 18:52:13 700

原创 移动光猫gs3101超级密码及改桥接模式教程

参考文章。

2024-02-07 12:40:42 6725

原创 t2vec code

请注意,具体的组织结构可能取决于你的数据和代码的具体实现。你可以使用h5py或其他HDF5文件阅读工具来查看生成的HDF5文件的详细结构。这是基于时间戳的假设,具体的时间间隔可能需要根据你的数据集的特点进行调整。函数创建了一个HDF5文件,并将处理后的数据存储到文件中。是一个可选参数,表示数据的存储路径,默认为 “/home/zzq/project/t2vec/data”。如果存在参数文件,则从文件中读取参数,否则创建参数并保存到文件中。对象,用于表示一个空间区域,包含了区域的地理信息和一些超参数。

2024-01-12 02:29:24 1001

原创 如何提高RAG增强的准确性

在一个典型的RAG应用开发中,必要的步骤为文档加载,文档拆分,向量化,向量存储。然后基于向量存储进行相似性查询,或基于向量距离的查询。这类查询就叫检索,LangChain所提供的对应组件就是检索器。但这种方式在查询语句发生微小变化时可能就会带来不同的结果。LangChain则提供了一系列更高级的检索实现,帮助开发者解决这类问题,或提高检索质量。今天我们介绍第4种,MultiVector Retriever(多向量检索器)。

2023-12-18 02:58:10 352

原创 LLM tip

langchain+文档+openai embedding+openai 3.5 turbo 快速搭建一个本地知识问答系统,视频也尝试了本地模型进行embedding,效果比较差。视频附上相关的ipynb的代码。

2023-12-17 20:27:26 110

原创 llm with vector db

通过集成相关知识,不仅大大提高了语言模型的性能,而且在实现可比性能的同时,还大大降低了对模型大小的要求。我们提出的知识注入模型的性能超过了GPT-3.5-turbo和最先进的知识注入方法SKILL,在MetaQA上的精确匹配分数提高了1.5倍以上。此外,我们发布了两个精心策划的数据集,以加速专业领域的知识注入研究:a)AeroQA,一个新的基准数据集,专为航空领域的多跳问答而设计;我们的研究有助于推进特定领域的语言理解领域,并展示了知识注入技术在提高语言模型在问答中的性能方面的潜力。

2023-11-19 03:13:06 199

原创 Quantile Loss

基本上,在这种情况下,量值损失对低估预测的惩罚是高估预测的 4 倍。因此,拟合模型平均在大约 80% 的情况下会高估结果,在 20% 的情况下会低估结果。让我们计算两种情况下的量化损失。为了更好地理解其背后的逻辑,假设我们的目标是预测 80 分位数,因此将 α = 0.8 的值插入公式中。事实上,这句话等同于预测误差在 75% 的情况下必须为负,而在另外 25% 的情况下必须为正。定量qₐ是一个值,它将一组给定的数字进行划分,其中 α * 100%的数字小于该值,(1-α) * 100%的数字大于该值。

2023-11-03 10:42:09 185

原创 Mgeo:multi-modalgeographic language model pre-training

ed是地理对象的唯一标识符,es区分道路和ROI,em描述不同地理对象之间的位置关系。MGM与广泛使用的掩码语言建模(MLM)[5]一样,MGM 的目的是预测掩码地理特征,即 OSM ID、几何类型、替代矩形的各边、关系类型和相对位置。地理编码器将地理位置 l 作为输入,将 GC 作为一种新的模态映射到密集表征中,其中包含周围地理对象的特征 {o1, o2, ., on }。我们设计了两个任务来训练地理编码器,并在以后的使用中固定下来,即屏蔽地理建模(MGM)和地理对比学习(GCL)。

2023-10-31 18:27:02 920

原创 Trajectory Data Collection with Local Differential Privacy(论文翻译)

NYC由从Foursquare数据集[43]中提取的纽约市的入住轨迹组成,而从Gowalla数据集[12]中提取的CHI和CLE分别由芝加哥和克利夫兰的入住轨迹构成。它通过使用本研究中提出的机制中使用的相同效用函数,即−dist(·),来扰动轨迹中的每个点。对于ε′,ε′4用于确定区域。由于区域大小在确定轨迹区域中起着更重要的作用,ε′4的四分之一用于扰动轨迹锚,而其他四分之三用于扰动半径。由于方向对轨迹的扰动有较大的影响,3ε′4的四分之三被均匀划分以扰动方向,而另四分之一被均匀划分来扰动点。

2023-10-18 00:47:05 179

原创 解决error: subprocess-exited-with-error

【代码】解决error: subprocess-exited-with-error。

2023-07-10 14:24:55 812

原创 miniconda使用tip

miniconda安装教程

2023-06-16 01:03:05 80

原创 【无标题】

情感计算是人工智能的一个分支。计算与情感有关、产生于情感或影响情感[1]。情感自动识别是情感计算的一个研究领域。这一领域的研究正在迅速发展,这要归功于可负担得起的捕捉大脑信号的设备的可用性,这些设备可以作为解码情绪和脑电图(EEG)变化之间关系的系统的输入。这些设备被称为基于脑电的脑机接口(BCIs)。这项工作回顾了使用脑电信号和脑机接口进行情绪识别的进展,以(1)识别算法使用和技术的趋势,(2)检测必须克服的潜在错误以获得更好的结果,以及(3)识别该领域可能存在的知识差距。

2023-06-06 18:09:26 578

原创 python画图 多图合并

参考链接

2023-06-02 20:41:02 138

原创 复杂网络作业相关网址

https://zhuanlan.zhihu.com/p/441195782

2023-05-25 18:11:41 48

原创 linux中各种安装

【代码】pip安装。

2023-05-17 17:54:59 54

原创 code of ridesharing

订单提交到系统时间、起点node的id、终点node的id、要求多少座位。司机个数 、capacity 、、变换的系数。司机所在位置、capacity。两个节点之间的weight。

2023-05-15 21:55:10 147

原创 【论文阅读】The Simpler The Better: An Indexing Approach for Shared-Route Planning Queries

近年来,拼车服务作为一种方便、经济、可持续的交通方式在全球范围内广受欢迎。这些服务中的一个基本挑战是规划乘客之间的共享路线(即出发地和目的地的顺序),以使平台的总收入最大化。尽管许多方法可以解决这个问题,但无论是实证研究(例如,总收入比我们的方法低31%以上)还是理论研究(例如任意糟糕或不切实际的理论保证),它们的有效性都远未达到最佳。在本文中,我们研究了拼车服务中的共享路线规划查询,并重点设计了具有良好近似保证的高效算法。

2023-05-10 19:42:41 249 1

原创 Could not find a version that satisfies the requirement解决办法

请一定不要挂着梯子用国内源。

2023-05-09 20:50:10 1389 2

原创 r树参考链接

github。

2023-05-08 21:56:11 57

原创 axhline函数--Matplotlib

参考链接

2023-05-08 20:56:46 85

原创 support函数

p* 表示任何值 v1 映射到它自己的支持集的概率,q* 表示任何其他值映射到 v1 的支持集的概率。纯协议要求任何值v1映射到其自己的支持集的概率对于所有值都是相同的。我们用p*来表示这种概率。为了满足ε-LDP,我们必须有 q* > 0,因为不同的值必须可以映射到 v1 的支持集。对除了v1的其他值扰动后,让其能统计回v1的概率为q*对v1进行扰动后,让其能统计回v1的概率为p*

2023-04-08 20:25:45 144

原创 本地差分隐私

随着d变大,DE 对 d 的依赖性是不可接受的,随后的方法消除了这种依赖性。local hashing方法让每个用户选择一个散列函数来对他们的输入进行编码,然后将散列函数与通过直接编码 [15] 编码的散列输入一起发回。在这里,哈希的域被选择为 g,它是 ε 的函数,通常比 d 小得多。也就是说,用户 i 选择一个(通用)哈希函数 ℎ。映射 [d] → [g]。接下来,用户对散列值 ℎ。) 应用直接编码,并将此输出与 ℎ。

2023-04-08 02:04:13 630

原创 spark 部署

spark

2023-03-20 12:15:29 565

原创 论文翻译 simba

simba

2023-03-13 15:26:29 206

原创 git merge rebase

git rebase

2023-03-10 15:20:27 60

原创 norm_sub

norm-sub

2023-03-07 17:24:29 100

原创 Differentially Private Grids for Geospatial Data

论文

2023-03-04 01:16:53 367

原创 英国车祸数据集

英国车祸数据集

2023-03-04 01:15:49 561

原创 python第三方库发布

python第三方库发布

2023-03-03 15:23:02 148

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除