summermoonlight-CSDN博客

原创【论文阅读】High-Dimensional Approximate Nearest Neighbor Search: with Reliable and Efficient DCO

如第1节所述，DCO大量参与许多AKNN算法。这些算法通过计算o的距离并将距离与r进行比较，自然地对对象o和距离r进行DCO。我们将这种传统方法称为FDScanning，因为它使用o的所有维度来计算距离。显然，FDScanning具有O（D）的时间复杂性。接下来，我们回顾了现有的AKNN算法，并从理论和经验上验证了DCO在这些算法中的关键作用。

2024-05-21 18:00:37 597

原创 GPS 与 UTM 坐标转换

例如 porto 某处经纬度为 (-8.618643, 41.141412)，输入相应的经纬度，则查询到UTM Zone为29T，29表示此处属于第29条经度带，T表示纬度带为T带（这个一般没用，29才是重要信息）东距和北距用于描述地理笛卡尔坐标系里的任意点的坐标。东距描述X坐标，北距描述Y坐标。这一对直角坐标通常在大地基准面上测量得到，单位是米。任意位置的坐标都可以用一对笛卡尔坐标表示。根据惯例，东距在前，北距在后。然后我们在网站中查询29N,(北半球为N)（南半球为S）UTM 带快速查询。

2024-03-01 18:52:13 465

原创移动光猫gs3101超级密码及改桥接模式教程

参考文章。

2024-02-07 12:40:42 3640

原创 t2vec code

请注意，具体的组织结构可能取决于你的数据和代码的具体实现。你可以使用h5py或其他HDF5文件阅读工具来查看生成的HDF5文件的详细结构。这是基于时间戳的假设，具体的时间间隔可能需要根据你的数据集的特点进行调整。函数创建了一个HDF5文件，并将处理后的数据存储到文件中。是一个可选参数，表示数据的存储路径，默认为 “/home/zzq/project/t2vec/data”。如果存在参数文件，则从文件中读取参数，否则创建参数并保存到文件中。对象，用于表示一个空间区域，包含了区域的地理信息和一些超参数。

2024-01-12 02:29:24 984

原创如何提高RAG增强的准确性

在一个典型的RAG应用开发中，必要的步骤为文档加载，文档拆分，向量化，向量存储。然后基于向量存储进行相似性查询，或基于向量距离的查询。这类查询就叫检索，LangChain所提供的对应组件就是检索器。但这种方式在查询语句发生微小变化时可能就会带来不同的结果。LangChain则提供了一系列更高级的检索实现，帮助开发者解决这类问题，或提高检索质量。今天我们介绍第4种，MultiVector Retriever（多向量检索器）。

2023-12-18 02:58:10 241

原创 LLM tip

langchain+文档+openai embedding+openai 3.5 turbo 快速搭建一个本地知识问答系统，视频也尝试了本地模型进行embedding，效果比较差。视频附上相关的ipynb的代码。

2023-12-17 20:27:26 94

原创 llm with vector db

通过集成相关知识，不仅大大提高了语言模型的性能，而且在实现可比性能的同时，还大大降低了对模型大小的要求。我们提出的知识注入模型的性能超过了GPT-3.5-turbo和最先进的知识注入方法SKILL，在MetaQA上的精确匹配分数提高了1.5倍以上。此外，我们发布了两个精心策划的数据集，以加速专业领域的知识注入研究：a）AeroQA，一个新的基准数据集，专为航空领域的多跳问答而设计；我们的研究有助于推进特定领域的语言理解领域，并展示了知识注入技术在提高语言模型在问答中的性能方面的潜力。

2023-11-19 03:13:06 177

原创 Quantile Loss

基本上，在这种情况下，量值损失对低估预测的惩罚是高估预测的 4 倍。因此，拟合模型平均在大约 80% 的情况下会高估结果，在 20% 的情况下会低估结果。让我们计算两种情况下的量化损失。为了更好地理解其背后的逻辑，假设我们的目标是预测 80 分位数，因此将 α = 0.8 的值插入公式中。事实上，这句话等同于预测误差在 75% 的情况下必须为负，而在另外 25% 的情况下必须为正。定量qₐ是一个值，它将一组给定的数字进行划分，其中 α * 100%的数字小于该值，(1-α) * 100%的数字大于该值。

2023-11-03 10:42:09 140

原创 Mgeo：multi-modalgeographic language model pre-training

ed是地理对象的唯一标识符，es区分道路和ROI，em描述不同地理对象之间的位置关系。MGM与广泛使用的掩码语言建模（MLM）[5]一样，MGM 的目的是预测掩码地理特征，即 OSM ID、几何类型、替代矩形的各边、关系类型和相对位置。地理编码器将地理位置 l 作为输入，将 GC 作为一种新的模态映射到密集表征中，其中包含周围地理对象的特征 {o1, o2, ., on }。我们设计了两个任务来训练地理编码器，并在以后的使用中固定下来，即屏蔽地理建模（MGM）和地理对比学习（GCL）。

2023-10-31 18:27:02 711

原创 Trajectory Data Collection with Local Differential Privacy（论文翻译）

NYC由从Foursquare数据集[43]中提取的纽约市的入住轨迹组成，而从Gowalla数据集[12]中提取的CHI和CLE分别由芝加哥和克利夫兰的入住轨迹构成。它通过使用本研究中提出的机制中使用的相同效用函数，即−dist（·），来扰动轨迹中的每个点。对于ε′，ε′4用于确定区域。由于区域大小在确定轨迹区域中起着更重要的作用，ε′4的四分之一用于扰动轨迹锚，而其他四分之三用于扰动半径。由于方向对轨迹的扰动有较大的影响，3ε′4的四分之三被均匀划分以扰动方向，而另四分之一被均匀划分来扰动点。

2023-10-18 00:47:05 161

原创解决error: subprocess-exited-with-error

【代码】解决error: subprocess-exited-with-error。

2023-07-10 14:24:55 787

原创 miniconda使用tip

miniconda安装教程

2023-06-16 01:03:05 66

原创【无标题】

情感计算是人工智能的一个分支。计算与情感有关、产生于情感或影响情感[1]。情感自动识别是情感计算的一个研究领域。这一领域的研究正在迅速发展，这要归功于可负担得起的捕捉大脑信号的设备的可用性，这些设备可以作为解码情绪和脑电图（EEG）变化之间关系的系统的输入。这些设备被称为基于脑电的脑机接口（BCIs）。这项工作回顾了使用脑电信号和脑机接口进行情绪识别的进展，以（1）识别算法使用和技术的趋势，（2）检测必须克服的潜在错误以获得更好的结果，以及（3）识别该领域可能存在的知识差距。

2023-06-06 18:09:26 477

原创 python画图多图合并

参考链接

2023-06-02 20:41:02 118

原创复杂网络作业相关网址

https://zhuanlan.zhihu.com/p/441195782

2023-05-25 18:11:41 35

原创 linux中各种安装

【代码】pip安装。

2023-05-17 17:54:59 39

原创 code of ridesharing

订单提交到系统时间、起点node的id、终点node的id、要求多少座位。司机个数、capacity 、、变换的系数。司机所在位置、capacity。两个节点之间的weight。

2023-05-15 21:55:10 138

原创【论文阅读】The Simpler The Better: An Indexing Approach for Shared-Route Planning Queries

近年来，拼车服务作为一种方便、经济、可持续的交通方式在全球范围内广受欢迎。这些服务中的一个基本挑战是规划乘客之间的共享路线（即出发地和目的地的顺序），以使平台的总收入最大化。尽管许多方法可以解决这个问题，但无论是实证研究（例如，总收入比我们的方法低31%以上）还是理论研究（例如任意糟糕或不切实际的理论保证），它们的有效性都远未达到最佳。在本文中，我们研究了拼车服务中的共享路线规划查询，并重点设计了具有良好近似保证的高效算法。

2023-05-10 19:42:41 125 1

原创 Could not find a version that satisfies the requirement解决办法

请一定不要挂着梯子用国内源。

2023-05-09 20:50:10 1372 2

原创 r树参考链接

github。

2023-05-08 21:56:11 50

原创 axhline函数--Matplotlib

参考链接

2023-05-08 20:56:46 58

原创 support函数

p* 表示任何值 v1 映射到它自己的支持集的概率，q* 表示任何其他值映射到 v1 的支持集的概率。纯协议要求任何值v1映射到其自己的支持集的概率对于所有值都是相同的。我们用p*来表示这种概率。为了满足ε-LDP，我们必须有 q* > 0，因为不同的值必须可以映射到 v1 的支持集。对除了v1的其他值扰动后，让其能统计回v1的概率为q*对v1进行扰动后，让其能统计回v1的概率为p*

2023-04-08 20:25:45 103

原创本地差分隐私

随着d变大，DE 对 d 的依赖性是不可接受的，随后的方法消除了这种依赖性。local hashing方法让每个用户选择一个散列函数来对他们的输入进行编码，然后将散列函数与通过直接编码 [15] 编码的散列输入一起发回。在这里，哈希的域被选择为 g，它是 ε 的函数，通常比 d 小得多。也就是说，用户 i 选择一个（通用）哈希函数 ℎ。映射 [d] → [g]。接下来，用户对散列值 ℎ。) 应用直接编码，并将此输出与 ℎ。

2023-04-08 02:04:13 582