- 博客(12)
- 收藏
- 关注
原创 【项目实训#06】基于RAG检索增强生成系统的API问答系统基础实现
本文介绍了基于RAG(检索增强生成)技术的API问答系统的设计与实现。该系统旨在帮助开发者高效查询和理解HarmonyOS API文档。RAG技术通过结合检索系统和生成模型,解决了大语言模型在知识时效性、专业领域知识和幻觉等方面的局限性。系统实现包括文档处理、向量化、向量数据库构建、检索和生成等模块。文档处理模块负责加载和解析API文档,向量化模块使用DeepSeek的BGE-M3模型将文本转换为向量表示,向量数据库存储文档及其向量,检索模块根据用户查询检索相关文档,生成模块基于检索结果生成回答。
2025-05-09 17:40:13
782
原创 【项目实训】【项目博客#05】知识图谱与RAG检索构建(4.14-4.27)
知识图谱构建实现了自动化的实体和关系提取流程构建了包含API、方法、参数等实体类型的知识图谱多模态检索实现了基于BGE模型的向量检索实现了基于图结构的关系增强检索设计了混合检索策略,提高检索质量智能问答集成DeepSeek大模型,实现上下文感知的问答生成设计了有效的提示词模板,提高回答质量系统集成实现了Web界面,提供友好的用户交互优化了系统性能,确保响应速度。
2025-04-29 22:36:47
764
原创 【项目实训#05】DeepSeek API客户端开发与集成学习实践
在HarmonySmartCoding项目中,需要使用DeepSeek API来实现问答、微调等等操作,用于后续的API文档问答和代码数据集提示词生成。为了满足这一需求,我开发了DeepSeek API客户端,用于连接和调用不同环境下的DeepSeek大语言模型。本文将详细介绍我的实现过程、技术方案以及关键功能。通过开发DeepSeek API客户端,我成功实现了与多种环境下DeepSeek模型的交互能力,这为HarmonySmartCoding项目的API文档问答和代码生成功能奠定了坚实基础。
2025-04-29 17:15:42
1034
原创 【项目实训】【项目博客#04】ArkTS代码切分与微调数据集提示词生成(4.7-4.20)
在HarmonySmartCoding项目中,高质量的训练数据是实现精准代码生成的关键基础。本文将详细介绍我们如何从ArkTS项目代码解析到生成DeepSeek大模型微调数据集的完整技术方案,涵盖静态代码分析、语法树解析、代码切分以及提示词工程等关键环节,为后续模型微调提供高质量的训练数据支撑。通过本项目,我们成功实现了从ArkTS代码到高质量问答对数据集的自动化构建流程。
2025-04-29 16:40:25
1007
原创 【项目实训】【项目博客#03】项目代码数据采集系统的构建与优化(3.31-4.6)
在HarmonySmartCoding项目中,数据获取是支撑整个项目落地的核心基础。本文将聚焦Python爬虫技术的学习与实践——通过定向爬取ArkTS代码仓库等数据源,构建高质量的结构化数据集,为后续大语言模型指令微调提供代码数据支撑。通过本次数据采集系统的构建,我们成功获取了大量高质量的ArkTS代码数据,为项目的后续发展奠定了坚实的数据基础。我们不仅实现了技术上的突破,也积累了宝贵的工程经验。
2025-04-29 10:43:12
1505
原创 【项目实训】【项目博客#02】API文档爬取与基础数据增强(3.24-3.30)
在HarmonySmartCoding项目中,我们实现了对HarmonyOS官方API文档的自动化爬取与数据增强处理。本文将详细介绍我们的实现过程、技术方案以及当前的项目进度。通过本项目,我们成功实现了对HarmonyOS官方API文档的自动化爬取和基础数据增强处理。这为后续的智能应用开发奠定了坚实的数据基础。我们的实现过程中,特别注重了对网页结构的分析和理解,采用了合适的技术方案来应对动态加载内容和复杂DOM结构。通过两阶段爬取策略和断点续爬机制,提高了爬取的效率和稳定性。
2025-04-29 09:45:10
646
原创 【项目实训#04】GitHub ArkTS项目代码爬取学习
通过本次项目实践,我不仅掌握了网络爬虫的开发技术,还学习了如何设计和实现一个完整的软件系统。在项目过程中,我遇到了各种技术难题,通过查阅资料和不断尝试,最终都得到了解决。这次经历让我深刻认识到,软件开发不仅需要扎实的编程基础,还需要良好的问题解决能力和工程实践经验。
2025-04-29 08:41:42
1468
原创 【项目实训#03】Selenium + Chrome Web Driver 网页文档爬取学习实践
本次实践通过Selenium和Chrome Web Driver,实现了对HarmonyOS官方API文档的自动化爬取与结构化处理。整个过程中,我们深入分析了目标网页的结构,针对动态加载和复杂DOM树形结构,设计了两阶段爬取流程,并通过断点续爬机制提升了爬取的健壮性和效率。在内容提取与结构化阶段,我们结合BeautifulSoup对HTML文档进行分层解析,提取了标题、概要、章节、表格和代码块等关键信息,并以JSON格式进行结构化存储。
2025-04-28 21:33:34
694
原创 【项目实训#02】PyCharm Gitee Git版本管理学习
本篇博客介绍了PyCharm结合Gitee进行Git版本管理的基本流程和操作方法。环境准备:包括Git客户端的安装配置和Gitee账号的注册,这是进行版本管理的基础。PyCharm与Gitee的集成:通过安装Gitee插件,实现了PyCharm与Gitee的无缝连接,使得在IDE中直接进行版本控制变得简单高效。图形界面操作:学习了PyCharm中的Git操作界面,包括菜单栏的基本操作、提交菜单的详细操作、Git历史查看以及分支管理等功能,这些图形化操作使得版本控制更加直观。命令行操作。
2025-04-28 21:15:52
927
原创 【项目实训】【项目博客#01】项目启动与初步规划(第1-2次会议阶段性总结)
在项目实训的第1-2次会议中,我们团队"哈哈哈萌霓队"围绕项目选题、技术路线和风险评估进行了深入讨论。本文将对会议内容进行总结,为后续工作提供参考。通过第1-2次会议,我们确定了项目方向、技术路线和初步工作计划。"基于DeepSeek微调的HarmonyOS平台API搜索与代码生成工具"项目旨在帮助HarmonyOS开发者提高开发效率,具有明确的应用价值和技术挑战。
2025-04-19 15:30:15
522
原创 【Ubuntu 22】【Hadoop 3.x 伪分布式架构】【IntelliJ IDEA IDE】环境配置【主要问题点】总结
本文介绍在完成jdk和hadoop安装后,应如何修改关键配置文件,完成Hadoop伪分布式架构(同一台机器上)的配置;并使用IDEA作为IDE,在Ubuntu本地撰写程序。
2025-03-28 14:23:01
609
原创 【项目实训#01】Windows PyCharm (venv虚拟环境) Python PyTorch CUDA cuDNN 安装及环境配置(详细)学习分享
作者之所以使用PyCharm作为IDE、使用.venv作为虚拟环境配置,更多地是因为其对于用户的友好性,很大程度上避免了新手小白对于终端的使用及各种报错的处理。作者在过去的探索过程中也踩过很多很多坑(参考的教程可能都已经数不清了),最终按照自己的理解选择了最适合作者自己的环境配置方式。至此,踏入Python与人工智能、深度学习的第一步已经完成,无论是计算机视觉还是自然语言处理,无论是后续项目实训中可能用到的知识图谱还是大模型微调,这都将是重要的一小步。
2025-03-22 21:46:05
1565
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人