自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 大模型处理后的数据进一步集成和规约

本文介绍了一个处理百度百科JSONL数据集的Python工具,主要功能包括:清理文本(去除括号说明和换行符)、拆分清洗标签(支持多级标签处理并有序去重)、数据过滤(剔除空值及基于首标签全局去重),最终输出格式化JSON文件。处理流程包含文本清洗→标签处理→数据过滤→全局去重等环节,输入500万条JSONL数据,输出去重后的结构化JSON记录。代码包含异常处理机制,确保处理过程稳定。输出数据结构包含摘要、标签和时间戳三个字段,适用于大模型训练等场景。

2025-06-15 14:02:07 1929

原创 百科数据的预处理:三元组解析与结构化转换技术

本文介绍了百科三元组数据预处理技术,重点解析了flow_decode_json.py脚本的核心功能与实现。该脚本通过正则表达式清理HTML噪音,采用字典聚合实现实体属性整合,并动态分块存储为CSV文件。技术亮点包括:高效HTML标签清理正则<[^>]+>、实体切换处理逻辑、特殊标签收集策略,以及基于数据量的动态分块存储机制。输出采用双列CSV格式(term+JSON),确保Excel兼容性和格式安全性。文章还提出了正则优化、并行处理和增量机制等改进方向。这套技术方案有效实现了原始三元组数据

2025-06-15 02:46:23 1407

原创 如何查看Windows系统下的显卡信息

本文介绍了Windows和Ubuntu系统下查看显卡信息的多种方法。Windows系统可通过DirectX诊断工具(dxdiag)、任务管理器或设备管理器查看显卡型号、驱动等信息。Ubuntu系统提供了多种命令行工具:lspci命令可识别显卡型号,NVIDIA和AMD用户分别可用nvidia-smi和rocm-smi查看详细参数,安装inxi工具能获取更完整的显卡及驱动信息。这些方法能满足游戏优化、驱动更新和深度学习环境配置等不同需求,帮助用户全面了解显卡硬件状态。

2025-06-08 23:32:56 749

原创 Python构建一个高效的维基百科爬虫

本文介绍了一个Python维基百科爬虫的实现与使用方法。该工具需要requests和beautifulsoup4库支持,可通过命令行参数配置爬取数量、请求间隔和输出文件。爬虫从指定起始URL出发,自动提取相关文章链接,并过滤特殊页面和媒体资源。爬取结果会保存到指定文件,支持断点续爬功能。文章详细说明了参数设置方法并提供了两个使用示例:爬取20篇神经网络相关文章(间隔5秒),以及爬取50篇数据科学文章(间隔10秒)。该工具在爬取过程中会预估耗时并支持暂停操作。

2025-05-25 22:58:17 333

原创 运行中文文本处理模型PEGASUS时分词器相关报错的解决方法

运行中文文本处理模型PEGASUS时分词器相关报错的解决方法: pegasus分词器处理文本的过程中跳出越界异常,显示有超过50000的索引, 以及self.vocab==NULL的解决方法

2025-04-30 21:04:32 165

原创 基于deepseek的oneapi接口实现自然语言文本摘要与标签生成任务的数据集处理

本方案基于DeepSeek-R1大模型,通过OneAPI接口实现大规模文本数据的自动化摘要生成与标签提取(用于处理数据集)。处理速度取决于远程api响应速度,已在中文百科采样数据集验证通过。

2025-04-28 21:34:51 278

原创 使用大模型api接口补充完善数据集

在学校的项目实训中,我们小组想做一款AI笔记软件.但是在其中的一个任务:训练(微调)一个可以生成式摘要笔记内容的模型.相关的数据集比较难找,但是我们想到可以用Wiki数据集来代替,毕竟,Wiki页面其实和整理好的笔记页面相差不大(都凝聚着各个领域行业的知识).由于学校提供了大模型接口,所以我们打算狠狠利用一下,直接拿这个接口来处理Wiki数据集.最终效果是生成了相关的生成式文本摘要和相关标签.

2025-03-20 21:59:11 366

原创 AMD显卡(RX6750gre)+ubuntu22.04基于docker部署ROCm环境(支持CUDA)

AMD显卡(RX6750gre)+ubuntu22.04基于docker部署ROCm环境(支持CUDA). 我尝试了三种在AMD显卡上部署支持CUDA的ROCm环境的方式:1. 使用windows操作系统上的基于docker的ubuntu20.04容器环境(失败)2. 使用windows操作系统上的wsl2(linux子系统)环境(失败)3. 使用ubuntu22.04操作系统上的基于docker的ubuntu22.04.5容器(成功)

2025-03-09 17:06:42 4141 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除