AI蜗牛车-CSDN博客

原创【SANER2024】Code Reviewer Recommendation Based on a Hypergraph with Multiplex Relationships

武汉大学， SANER2024的paper。

2024-09-02 16:53:40 788

原创【论文】Reviewer Recommendation for Pull-Requests in GitHub: What Can We Learn from Code Review

来自于国防科大的一篇期刊文章。

2024-09-02 16:50:23 1192

原创【ICSE 2021】Code Reviewer Recommendation in Tencent: Practice, Challenge, and Direction

Code Review对于确保软件工程中的系统质量至关重要。Code Review已经发展成为一种基于工具的轻量级流程，专注于代码更改：开发周期的最小单位，将其称为现Modern Code Review (MCR)。MCR 涉及代码贡献者提交代码更改和代码审查者审查分配的代码更改。reviewer分配过程面临着有效寻找合适的reviewer的挑战。

2024-09-02 16:44:50 777

原创 6篇大模型微调数据选择、数据构造、数据过滤技巧论文汇总解读

对于sft数据选择、数据构造、数据过滤等的总结。

2024-08-31 23:51:38 755

原创【大模型LLM第十一篇】微调自动化数据选择方式之MoDS

sft已经成为让LLM遵循用户指令的一种方式。通常，需要使用数十万个数据来微调基础LLM。最近，研究表明少量的高质量指令数据就足够。然而，如何在给定的数据中选择合适的指令数据？为了解决这个问题，提出了一种面向模型的数据选择（MoDS）方法，该方法基于考虑三个方面的新标准来选择指令数据：质量、覆盖范围和必要性。首先，利用质量评估模型从原始指令数据集中过滤出高质量子集，然后设计算法进一步从高质量子集中选择具有良好覆盖率的seed instruction dataset。

2024-08-29 18:42:45 801

原创【大模型LLM第十篇】利用One-Shot Learning从数据集中辨别和选择高质量sft数据

前言One-Shot Learning as Instruction Data Prospector for Large Language ModelsACL2024的文章，来自中科院深圳先进技术研究院link：https://arxiv.org/pdf/2312.10302github：https://github.com/pldlgb/nuggets一、摘要sft目前的实践通常取决于扩大数据规...

2024-08-28 17:29:16 948

原创【大模型LLM第九篇】高效的微调方式：Self-Evolved多样性数据采样

前言来自阿里巴巴和北京大学的文章：Self-Evolved Diverse Data Sampling for Efficient Instruction Tuninglink：https://arxiv.org/pdf/2311.08182github：https://github.com/OFA-Sys/DiverseEvol一、摘要提升大型语言模型的指令遵循能力需要大量的sft数据集。然而，...

2024-08-23 17:00:41 685

原创【大模型LLM第八篇】从数量到质量: 通过Self-Guided数据选择方式提高LLM微调性能...

前言From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning来自平安科技 ACL24的文章。https://arxiv.org/pdf/2308.12032.pdfhttps://github.com/MingLiiii/Cherry_LLM一、...

2024-08-21 17:03:36 764

原创【大模型LLM第七篇】微调：用更少的数据来训练更好的羊驼

前言ICLR 2024的论文，来自马里兰大学用更少的数据来训练更好的羊驼ALPAGASUS: TRAINING A BETTER ALPACA WITHFEWER DATAlink：https://arxiv.org/pdf/2307.08701一、摘要大型语言模型（LLMs ）通过sft加强指令遵循能力。然而，广泛使用的数据集（例如 A 的 52k 数据）包含许多具有不正确或不相关响应的低质...

2024-08-17 17:48:03 921

原创【大模型LLM第六篇】微调：Instruction Mining: Instruction Data Selection for Tuning Large Language Models

前言COLM 2024 的paperInstruction Mining: Instruction Data Selection for Tuning LargeLanguage Modelslink：https://arxiv.org/pdf/2307.06290一、摘要LLM 最初针对广泛的能力进行预训练，然后使用遵循指令的数据集进行微调，以提高其与人类交互的性能。尽管微调方面取得了进步，但...

2024-08-14 21:11:49 841

原创【大模型LLM第五篇】langchain agent及用langchain框架写一个math agent

前言利用langchain快速实现一个使用tool的agentlangchain agent相关的文章以下都值得花时间看看提供的内置tools：https://python.langchain.com/v0.2/docs/integrations/tools/agent的类型：https://python.langchain.com/v0.1/docs/modules/agents/agent_t...

2024-08-13 17:04:36 779

原创 BPE Encoder算法讲解与python实现

背景传统的文本处理方法通常将句子按照空格拆分为单词（token），但这种方法存在一些问题，例如无法捕捉单词之间的细微关系（比如时态）。为了解决这些问题，提出了多种子词（subword）分割算法，其中Byte Pair Encoding（BPE）是一种常用且有效的方法。BPE算法最初用于数据压缩，后来被引入到NLP中，用于将单词分割成更小的子词单元。通过这种方式，BPE能够有效减少词汇表的大小，提高...

2024-08-07 17:09:55 582

原创 K-Center-Greedy算法讲解和python实现

前言K-Center-Greedy 算法在主动学习和数据采样、最大覆盖等方面有广泛的应用。最主要的思想是，可以用k个中心点来代表目前的数据分布。算法流程初始化：随机选择一个sample作为第一个中心。计算数据集中每个sample到中心点的距离，并找出每个sample到中心点最小的距离，即计算数据集中每个点到其最近中心点的距离，我们称之为每个点的最近中心点距离。选择目前所有样本点中的最近中心点距离最...

2024-08-05 16:55:11 525

原创 OnePass 聚类算法讲解及python实战

算法流程核心一句话每次处理新的数据时，会决定将其分配到现有的一个Cluster中，或者创建一个new Cluster。这取决于数据点与现有簇的相似度（距离）。关键步骤初始化：开始时，簇是空的。开始遍历所有数据：遍历下一个点（最后一个点截止）：判断是否存在cluster，不存在则将第一个数据点作为new cluster的第一个数据点，之后返回1，如果存在则开始3计算该数据点与现有的所有clust...

2024-08-01 19:09:16 291

原创【大模型LLM第四篇】Prompt模版管理之jijia2以及Go Text Template

Prompt编排如果将一个LLM应用做成服务，则需要对prompt进行管理。一般来说我们写小demo，可能直接用string.format格式，但这种相对来说不是很规范且标准化。对于Python我们可以使用 jijia2 模版来管理Prompt对于Go我们可以使用Go text template进行管理jijia2文档：https://docs.jinkan.org/docs/jinja2/te...

2024-07-22 22:09:49 310

原创 LLM Chat Demo的前端交互神器之Gradio

前言如何把自己搞得AI应用，或者chat llm相关demo快速开发出一个交互的界面呢， gradio闪耀登场。github：https://github.com/gradio-app/gradio官方文档： https://www.gradio.app/docs实现功能写的例子是有两个输入框分别解析成List和str得到的结果以markdown格式输出加载一个图片在web上展示python代码...

2024-07-18 21:23:15 292

原创 Merge Request描述自动生成相关论文调研

一、Automatic Generation of Pull Request Descriptionslink：https://arxiv.org/pdf/1909.06987.pdfcode：https://github.com/Tbabm/PRSummarizer这篇论文主要看数据的组成，模型主要是 attention的小模型，感兴趣可以看论文1.1 问题定义文中定义MR descripti...

2024-04-08 17:32:23 692

原创四篇Code+LLM论文速读

前言自从LLM的发展，LLM4Code已经生成一个落地比较强的方向了，比较好的产品就是github的copilot。这些天看了不少code的相关paper，准备花几篇文章大概总结一下，主要总结一些有价值的点，细节就不展开了。细节可以自己去看下原文主要的方向就是code review，code generation等一、GPT-3.5 for Code Review Automation: How ...

2024-04-02 18:26:01 1048

原创【大模型LLM第三篇】Prompt资源最全整合（学习资料、模版开源、自动优化以及好玩的网站）涉及ChatGPT等...

前言总结和整理很多不错的prompt学习和好玩的网站具体prompt学习教程，请参考：一、学习资料1.1 https://prompt-guide.xiniushu.com/category/-basics1.2 https://www.promptingguide.ai/zh英文repo：https://github.com/dair-ai/Prompt-Engineering-Guide1.3...

2024-03-18 17:11:34 1387

原创【大模型LLM第二篇】openai官方prompt教程详细解读

前言毕竟openai是大模型的鼻祖，官方推荐的prompt教程还是有必要好好学习一下的网站：https://platform.openai.com/docs/guides/prompt-engineering其中一共有6种策略Six strategies for getting better resultsWrite clear instructions（写清晰的指令）Provide refere...

2024-03-16 22:05:51 1068

原创【大模型LLM第一篇】Prompt Engineering(PE)总结-学会与LLM交谈

前言prompt更像是和大模型直接交流的语言，prompt写的好坏，可能直接影响LLM的输出，在产品中，为了输出的格式，或者其他的约束，在输入的prompt中添加一些话术也是必不可少的，现在对于prompt提示工程也有很多paper的研究工作，这次主要记录自己学习llm初期，关于prompt的一些知识，整体偏简约，不会写的太冗余通过为 AI 分配一个角色，我们给它提供了一些上下文。这个上下文有助于...

2024-03-09 18:53:30 1601

原创 python之importlib.import_module动态导入讲解

前言在某些情况下，你可能不知道在编写代码时需要导入哪个模块，或者你可能想要根据配置或用户输入来导入不同的模块。在这些情况下，可以采用importlib.import_module模块，它允许你在运行时动态地导入一个模块使用用三个例子来快速记录一下用法例子一import importlibmodule_name = "math"# 使用 importlib.import_module 来导入...

2024-02-17 17:07:16 1921

原创时间序列分类算法极简设计之ROCKET、MiniRocket详解及python实战

前言时间序列分类任务也是比较常见的任务，根据分类，来判断时间序列的性质，类别等。其中rocket算法十分另类，看似用的非常简单且暴力的方式，却拿到了不错的效果，以及拥有非常快的推理和训练速度。后续还有minirocket，在rocket的基础上进行简化，在基本上不损失精度的前提下，拥有更快的速度。ROCKET（RandOm Convolutional KErnel Transform）ROCKET...

2024-02-08 21:44:43 1712

原创时间序列特有的交叉验证方法GroupTimeSeriesSplit

一、前言对于时间序列的任务的交叉验证，很核心的问题在于数据是否leak，因为较其他数据最为不同的是时间信息，有先后的发生顺序。如果用简单的打散数据顺序，之后抽取，进行交叉验证肯定是违反这个时间顺序的规则的，比如如下的交叉验证的方式：所以要用另外一种方式来保证分块的训练集和验证集是遵循时间的先后顺序的：GroupTimeSeriesSplit二、GroupTimeSeriesSplit2.1 代码代...

2024-02-06 17:17:12 1282

原创时间序列特征提取之kats

一、前言对于时间序列特征工程，有很多自动特征工程的工具，这篇文章主要讲katstsfresh：AI蜗牛车：时间序列特征提取之tsfresh详细使用二、katsdoc：https://facebookresearch.github.io/Kats/2.1 安装pip install kats直接按照广网的requirements安装，会出现cpython，fbprophet等问题按照下面这个装，可以...

2024-02-05 16:49:40 939

原创时间序列预测之Prophet库详细讲解与python实战

一、前言Prophet 是由 Facebook 开发的一个开源时间序列预测库，设计考虑了业务场景中的时间序列特点，如季节性变化、假日效应和趋势变化。Prophet 特别适合处理日级别（或以上频率）的时间序列数据，并且在处理缺失数据和异常值方面表现出色。看完这篇文章应该会对整体prophet的使用以及各种常用的主要的配置有个详细的掌握了。二、Prophetgithub地址：https://githu...

2024-02-04 18:04:43 2050

原创时间序列特征提取之tsfresh详细使用

一、前言对于时间序列特征工程，有很多自动特征工程的工具，这篇文章主要讲tsfresh二、tsfreshdoc：https://tsfresh.readthedocs.io/en/latest/index.html2.1 安装pip install tsfresh2.2 数据格式这点主要是和 tsfresh.extract_features 的参数相关，主要是column_id和column_sor...

2024-02-03 16:29:19 1463

原创时间序列之拐点检测（changepoints detection）算法

一、前言对于时间拐点问题，其实就是找changepoint的问题，业务场景比如机器的缩扩容，业务的升级回滚等，都会让一些指标发生这样的现象, 如下图。（这种场景比较理想，现实情况要复杂得多）为了检测这个区域，需要使用changepoint detector：ruptures二、rupturesruptures 是专门用于检测时间序列数据中的结构性变化，这种变化也常被称为断点（breakpoints...

2024-02-02 18:19:57 2266

原创 python提效工具之cattrs（高效类序列化）和attrs库（简化类创建）详解

一、前言如果场景中有很多的序列化和反序列的过程，那有没有一种工具让我们快速的去做这件事情呢，那就可以参考cattrs库。cattrs 是一个Python库，它提供了高级的数据结构转换功能，使得将Python类实例序列化和反序列化变得简单。cattrs特别适用于将复杂或深层的数据结构与常见的数据交换格式（如JSON、YAML等）之间做转换。它非常适合处理通过网络传输或存储在文件中的数据。cattr...

2024-02-01 17:13:21 920

原创 python提效利器之jinja2使用讲解

前言提升工作效率的利器，如果场景需要根据一个模版，生成不一样的配置文件，如果都通过生成其实欠妥，一方面麻烦，另一方面不方便管理，如果可以用一个模版来统一管理格式，通过模版生成每个需求的配置文件，岂不美哉随之想到jinja2这个库jinja2使用jinja2 是一个流行的Python模板引擎，主要用于生成文本输出，这些输出可以是HTML、XML、JSON、docker配置文件等。jinja2 使用了...

2024-01-31 17:21:02 483

原创时间序列表征之SAX（Symbolic Aggregate approXimation）实战python讲解

一、前言sax理论篇：时间序列表征之SAX（Symbolic Aggregate approXimation）算法二、sax实现2.1 过程标准化（将数据转换为高斯分布）paadiscretization2.2 标准化因为原文中采用的breakpoints为前提假设为：离散化要求产生具有等概率的符号，通过标准化的时间序列具有高斯分布所以标准的sax之前应该先通过一次标准化得到数据，很多例子这步骤都...

2024-01-30 17:14:40 477

原创【异常检测】RRCF(Robust Random Cut Forest) 稳健随机采伐森林算法理论讲解及python实战...

一、前言异常检测有个非常常见的落地场景，就是智能巡检，实时的异常检测。所谓流式的异常检测：实时数据流环境中识别异常或离群点的过程。这种类型的异常检测对于那些需要即时响应的应用场景非常重要，例如网络安全监测、金融交易欺诈检测、实时交通监控、工业系统故障检测等，最为常见的就是机器服务指标的监控等。对于很多非流式异常检测算法，不能实时的更新模型，并会有很大的计算代价，在原始数据维度，很多算法遗漏时间这个...

2024-01-29 17:35:55 1233

原创【异常检测】孤立森林（isolation Forest）iForest算法理论讲解及python实战

一、原理孤立森林（Isolation Forest，简称 iForest）是一种无监督学习算法，用于识别异常值。其基本原理可以概括为一句话：异常数据由于数量较少且与正常数据差异较大，因此在被隔离时需要较少的步骤。有两个假设：异常的值是非常少的（如果异常值很多，可能被识别为正常的）异常值与其他值的差异较大（这点也可以引出主要是全局上都为异常的异常，局部小异常可能发现不了，因为差异并不大）二、具体流程...

2024-01-19 15:55:06 1398

原创 python设计模式之工厂模式、策略模式、生产者-消费者模式

前言这篇主要总结下设计模式：工厂模式、策略模式、生产者-消费者模式，用python举例说明一、策略模式1.1 理论理解顾名思义，根据情况来选择不一样的《策略》。这种设计模式主要适用于：希望能够根据特定条件选择方法的情况。想根据具体场景理解可以看：https://cloud.tencent.com/developer/article/1774687 , 简而言之，根据不同的算法选择，来调用...

2023-12-17 18:54:00 119

原创核密度估计KDE（kernel density estimation）理论及python实现

前言pdf和cdf：https://zhuanlan.zhihu.com/p/644575445核密度估计核密度估计（kernel density estimation，KDE）是一种非参数方法，用于估计数据的概率密度函数。KDE基于核函数，以一定的带宽参数，通过对每个数据点附近的核函数进行加权平均来估计数据点的概率密度，即根据有限的数据样本对总体进行推断。核函数通常选择高斯核函数（Gaussia...

2023-12-10 15:21:53 2996 1

原创时间序列平滑方法之移动平均、一次指数平滑、二次指数平滑、三次指数平滑的python细节实现...

时间序列平滑方法之移动平均、一次指数平滑、二次指数平滑、三次指数平滑的python细节实现一、平滑方法常用的平滑方法有移动平均一次指数平滑、二次指数平滑、三次指数平滑具体理论比较好懂，可以参考：https://zhuanlan.zhihu.com/p/441373033https://zhuanlan.zhihu.com/p/78848809二、python实现以下写法都是流式的方式来写的，就是来...

2023-12-08 10:14:56 1023

转载从头预训练大模型实践经验

前言如何从头训练一个基座大模型？今天介绍一篇文章，其没有更多的理论依据，一切都是一些实践经验。Weights & Biases是一个强大的用于深度学习可视化的工具，可以实现对深度学习各项参数的可视化，本篇介绍的文章也是从这些大量的日志中总结的一些经验。如果正在做基座大模型预训练的同学可以看看～论文：《Current Best Practices for Training LLMs from...

2023-12-07 20:38:06 403

原创 TraceRCA：通过Trace Analysis进行微服务系统的根因定位

前言之前有一点时间对traceRCA比较感兴趣，读了几篇论文，今天突然发现自己的笔记里还有一篇写好笔记。但是没有整理的文章，直接发一下。查了一下，现在代码已经开源了code：https://github.com/NetManAIOps/TraceRCApaper：https://netman.aiops.org/wp-content/uploads/2021/05/1570705191.pdf一...

2023-12-06 17:40:11 205

转载多尺度Patch在时间序列建模中的应用总结

在PatchTST等一系列后续Transformer相关的工作中，使用patch进行时间序列数据处理+Transformer模型结构的方式逐渐成为时间序列预测的主流模型。然而，之前的很多工作，都使用一个固定的时间窗口进行patch处理，降低了模型对于不同scale规律性的捕捉。这也衍生出一个研究点：如何设计多粒度的patch方法，增强patch+Transformer的建模能力。今天这篇文章，给大...

2023-11-24 09:29:28 1393

转载时序预测的王道之 Patch

在最近一年的Transformer时间序列预测模型中，一般都采用Patch的方式进行数据组织，即将时间序列分成多个patch，每个patch通过MLP编码后，输入到Transformer中。这种建模方式，目前是最适合Transformer结构的，也被很多之前的工作证明效果的优越性。然而，这种建模方式的效果，真的来源于Transformer吗？还是只是因为Patch的数据处理形式带来的呢？香港科技大...

2023-10-25 21:17:37 2153

MobileNetSSD_deploy网络文件适用于demo.py

解决android端Ble蓝牙每次只能接收 20字节的 方法类

QT 的第三方库串口助手

自己封装的Android的socket通信的类

QT串口的第三方库

QT简单串口助手 有收发功能采用Qextserial

QT可以随着数值实时改变大小的长方形条形控件测试代码

QT图形实时显示测试代码（可根据值改变）

有关discuz的安装中提示xml_parser_create() 不支持

关于wordpress的主题无法显示

解决android端Ble蓝牙每次只能接收 20字节的方法类

QT简单串口助手有收发功能采用Qextserial