python算法工程师-CSDN博客

原创自动驾驶的数据集以及yolov8和yolop

网络全部是分割了没有检测。自动驾驶的车道线和可行驶区域在数据集中的表示自动驾驶系统中的车道线和可行驶区域的表示方式主要有以下几种：基于几何模型：使用几何模型来描述车道线和可行驶区域的形状和位置，例如直线、曲线、多边形等。车道线和可行驶区域的几何模型可以通过传感器获取的数据进行拟合和计算，例如摄像头图像、激光雷达点云等。基于图像分割：使用图像分割技术来将图像中的像素分为不同的类别，例如车道线、道路表面、背景等。这种方法通常需要使用深度学习模型进行训练，以提高分割的准确性。基于语义地图：使用语义地图来描述车道线

2025-04-12 14:25:05 1119

原创项目一缺陷检测

把数据加载模块的代码跑一遍，以对数据集和数据加载更好的了解。

2025-04-12 14:23:52 697

原创 ViT-Adapter

cityspace数据集https://github.com/czczup/ViT-Adapter/tree/main/detection这是一个训练一个分割器的 Python 脚本 train.py 的帮助文档。脚本接受一个参数 config，表示训练配置文件的路径。除此之外，还有一些可选参数。–work-dir: 指定保存日志和模型的目录。–load-from: 指定加载预训练模型的路径。–resume-from: 指定恢复训练的模型的路径。–no-validate: 是否在训练过程中不进行验证。

2025-04-12 14:14:26 857

原创联邦学习从可用到好用，阿里达摩院最新框架FederatedScope

在federatedscope/contrib/data文件夹下创建.py文件定义 load函数函数用于加载和准备训练和评估所需的数据。它返回一个字典data_dict，其中包含每个客户端的训练、测试和验证数据，以及配置对象config。data_dict键是客户端 ID，是整数。值是包含三个键 ‘train’、‘test’ 和 ‘val’ 的字典。每个键的值可以是 PyTorch 的DataLoader对象或自定义的Data对象。config对象包含训练和评估过程的配置参数。

2025-04-10 14:00:00 731

原创 yolov5使用指南

其实，我对你是有一些失望的。当初给你定级px,是高于你面试时的水平的。我是希望进来后，你能够拼一把,快速成长起来的。px这个层级，不是把事情做好就可以的。你需要有体系化思考的能力。你做的事情,他的价值点在哪里?你是否作出了壁坐,形成了核心竞争力?你做的事情,和公司内其他团队的差异化在哪里?你的事情，是否沉淀了一套可复用的物理资料和方法论?为什么是你来做，其他人不能做吗?你需要有自己的判断力,而不是我说什么你就做什么。后续,把你的思考沉淀到日报周报月报里，我希望看到你的思考,而不仅仅是进度。

2025-04-10 13:58:52 945

原创 ForexRL项⽬规划与实施

这⼀部分将概述这些应⽤的动机，外汇交易固有的挑战以。⾃注意⼒机制使其能够捕捉数据中的⻓期依赖性，使其成为当前输出依赖于前⼀次输出的任务的理。我们还将对外汇中的RL应⽤进⾏⼤致的概述，Transformer模型提取的特征可以被看作是对市场动态的⼀种"理解"，⼀个重要的可能的扩展可能涉及从⼀个在历史数据上进⾏训练然后部署的模型，过渡。代理⼈可能有选择⼀次购买或卖出多个单位的选项，这可以是固定数量的单位。它们还需要⼤量的训练数据以确保良好的泛化。Transformer模型的主要优点之⼀是它能处理⻓序列的数据，

2025-04-10 13:57:14 625

原创基于问答的意图识别及问答系统的搭建

先意图识别，再到知识图谱里面去查prompt提示学习硬模板有监督的学习softmax预测mask。

2025-04-10 13:56:26 264

原创如何编译opencv2 的源代码

【代码】如何编译opencv2 的源代码。

2025-04-10 13:55:46 81

原创通过反射函数自动化生成 GPT 可读的函数描述

【代码】通过反射函数自动化生成 GPT 可读的函数描述。

2025-04-10 13:54:53 112

原创 python对mysql数据库的操作

现在遇到一个问题如何将数据批量的插入mysql数据库中。

2025-04-10 13:53:32 150

原创基于大模型构建金融客服的技术调研

lmsys.org。

2025-04-10 13:51:40 1105

原创感知算法入门

目录：1.感知是什么2.车辆感知使用的数据3.pointpillars概念4.centerpoint概念5.bevformer概念6,bevfusion概念7.pointpillars精读8.centerpoint精读9.bevformer精读10,bevfusion精读11.复现与部署感知是什么。

2025-04-10 13:50:37 268

原创关于emdding的技术调研

需要安装pytorch。

2025-04-10 13:49:22 419

原创 fastapi开发指南

【代码】fastapi开发指南。

2025-04-10 13:48:06 127

原创基于本地知识库的代码实现

先利用标点符号进行划分。尽量减少emddeding的信息误差。基于知识图谱作LLM知识库，老师们计划怎么实现。基于知识图谱作LLM知识库，老师们计划怎么实现。少于100字的文本不太可能表达完整的意思。一般接收100字进行emdeding。后续能支持excel表格导入分析吗？后续能支持excel表格导入分析吗？向上向下扩充，共同构成信息的文本。上下文扩充完大概250字。

2025-04-10 13:47:33 124

原创昆仑django向量数据库原理详解

文件类型支持doc，md，pdf，txt四种类型。当修改之后再进行查询会发现文件已经被修改。delete: 删除知识库。post: 创建知识库。get: 知识库详情。put: 编辑知识库。

2025-04-10 13:46:18 260

原创 llm知识库文本分割问题

Document(page_content=‘Binance Academy2008年的金融危机：深思过去与熟虑现在\n\n2008年的金融危机撼动了整个全球的经济。十年后的现在，人们深思着规则是如何改变的，且更重要的是如何在未来避免此类型的经济危机。\n\n起初的次级贷款市场金融风暴，慢慢的演变成了一场大规模的全球性金融危机和经济衰退。再从大规模的经济救援到后来的经济持续衰退，许多人都在质疑他们所深信的全球银行系统的稳定性和透明度。\n\n金融危机期间发生了什么？

2025-04-10 13:45:09 250

原创手写数字识别自训练模型+fastapi部署接口

发现效果还是不太好，最后我调整了模型，还是用resnet。做了数据增强，和修改模型结构后发现效果最好。最开始我使用CNN模型发现识别率不是很高。这里可以看到预测的很多数字是错误的。然后我就修改了模型使用resnet。把模型放到fastapi里做成接口。这里就可以上传图片进行识别了。训练模型的服务器信息。

2025-04-10 11:15:08 335

原创 C++算法工程师

参与图像处理，机器视觉，深度学习等核心算法模块的构建，维护，以及模型算法的精度优化，速度优化及网络裁剪。熟悉常见的深度学习框架，caffe，tensorflow，pytoch和keras者优先。参与ai边缘计算开发版本开发，包括模型转换，自定义算子开发，量化及模型优化等。精通C/C++,python语言编程；多线程编程，拥有良好的代码编写习惯。具备良好的分析解决问题的能力，能够独立承担工作任务和把控工作进度。自动化，电子信息，计算机专业优先。硕士应届或本科两年以上工作经验。

2023-08-24 22:55:08 510

原创 chatglm微调

②Lora：技术原理简单，但真有奇效，需要注意rank大小的设置，是根据业务领域来的，领域垂直性越强，就要设置的越大，比较有意思的就是数据，看起来最没技术含量的事情，大家不愿意做，但其实是最难的，数据收集存在诸多问题，数据少且封闭，缺乏标注，垂直领域往往对结果要求很高。解释一下矢量，解释一下万有引力，解释一下摩擦力，解释一下直线运动，刚体运动的分类，解释一下机械波，热力学第一定律。text2vec-base，chatglm-6b 这两个是必要的，下载后，对应的路径要改成自己下载后的路径。

2023-07-18 22:23:44 2825

原创监控程序可以监控网站的端口流量情况

https://github.com/louislam/uptime-kuma

2023-07-18 21:04:20 637

原创 llmaindex 多文档管理，索引构建

金十数据6月15日讯，格力电器董秘邓晓博在6月15日举办的2022年度业绩说明会上表示，公司在绿色能源领域持续发力，致力于新能源电器及近用户侧能源互联网系统关键技术研究和产品开发，协同构建能源信息化与直流化新生态，推动绿色经济转型，目前主要聚焦于光伏空调板块、新能源汽车板块和锂电池板块的布局。要将Redis与GPT结合，我们可以将GPT模型应用于某些特定的应用场景，例如智能对话系统、推荐系统等，而Redis则作为缓存系统，提高整体性能。在查询时，从查询中提取关键词，只查询映射的节点。

2023-07-18 20:52:46 1269

原创调研：开源版gpt code interpreter

找到了一些开源项目，但都还比较初期。

2023-07-18 20:49:48 1655

原创飞书接口说明

请填写 URL 以使订阅生效。填写后，飞书服务器会向其发送一个 HTTP POST 以验证地址有效期，请求格式为 JSON ，带 CHALLENGE 参数。应用接收此请求后，需要解析出 CHALLENGE 值，并在 1 秒内回复 CHALLENGE 值将你的接口对应的公网地址给填上，当有人给机器人发消息的时候，飞书服务器会发送请求给这个地址，你在接收到请求后需要立即返回200的状态码。

2023-07-16 22:59:00 200

原创 LangChain for LLM Application Development 课程要点

课程链接: https://learn.deeplearning.ai/langchain/简介了一下 LangChain 等。LangChain 提供的一个关键能力就是 output parsing，如果需要返回结构化（JSON）的结果，可以考虑使用 ResponseSchema、StructuredOutputParser。提到了几种memory，重点讲上下文 Conversation Memory，由于大模型有token长度限制，上下文是有限的。主要讲解了三类 Chain 的用法这是调用大模型的一个基

2023-07-16 22:55:25 2510

原创 GPT 最佳实践

由于GPT具有固定的上下文长度，在用户和助手之间的对话中，如果整个对话都包含在上下文窗口中，则无法无限期地进行对话。对此问题有各种解决方法，其中之一是对先前的对话进行总结。一旦输入的大小达到预定的阈值长度，这可能会触发一个查询，对对话的一部分进行总结，并将之前对话的总结作为系统消息的一部分包括进来。另一种选择是在整个对话期间异步地在后台对先前的对话进行总结。另一种解决方案是动态选择与当前查询最相关的先前对话部分。请参考策略“使用基于嵌入式搜索来实现高效的知识检索”。

2023-07-16 21:54:26 932

原创 FinGPT 研究

尽管BloombergGPT在金融方面的能力非常出色,但它的计算量非常大。它花了大约130万GPU小时进行培训,按AWScloud2.3美元的费率计算,相当于每次培训花费约300万美元。与BloombergGPT之类模型的高计算成本形成对比的是,FinGPT通过关注顶级开源LLMs的轻量级适配,提供了一个更易于访问的解决方案。适应费用大幅下降,估计每次培训不到300美元。这种方法确保了及时更新和适应性,特别是在动态金融领域。

2023-07-16 21:51:00 1221

原创数字人技术调研

（3）Mac和Windows客户端，有一个数字人中本聪（就像以前的瑞星小狮子一样）目前选择Live2D方案，后期支持中本聪变身二次元萌妹，各种中本姬。（1）PC网页端有一个数字人中本聪，可以说话，与用户进行生动的交互。**一定不是基于头像的聊天窗口，一定要有数字人 **最基础的需求就是：弄一个插画人，然后实现语音口型同步。然后鼠标垫下他，就能有些反馈，鼠标移动，他的头跟着动。7月中旬之前搭建中本聪GPT的PC网页版本。（2）手机APP有一个数字人中本聪。大把素材在网上也能便宜买到。

2023-07-16 21:49:54 837

原创使用 ChatGPT API 构建系统课程要点总结

介绍了两种 LLM 的情况：Base LLM 使用监督学习进行训练，其开发周期相当漫长，而使用 Instruction tuned LLM 开发 prompt-based AI 则可以将开发过程极大程度缩短。

2023-07-16 21:48:34 1592

原创要研究的方向和准备

大语言模型（Large Language Model）崛起后，开发人员只要借助大语言模型，完全可以做到现在大部分NLP工程师在做的事，比如文本分类、实体抽取、推理等。可以预见的是，随着LLM能力的不断提升，可能做的比NLP工程是都要好。而Meta发布的SAM（Segment Anything Model）也让让CV走到尽头，SAM将Engineering的开箱即用做到了极致。

2023-07-16 21:46:46 366

原创 GPT 开发技术选取

GPTCache 语义缓存节省开销。

2023-06-01 11:51:40 1101 1

原创 GPT 探索

gpt-3.5-turbo 支持），带上提示请求 gpt，但是提示的长度是有限的（4097 tokens，汉字=2 token，英文=0.5 token），而且每次提问都携带长提示，成本较高；） ChatGPT API 增加了 messages 参数，支持显示定义角色，可以取代之前的 prompt，更清晰的标记每一个内容的来源，方便 API 生成更有价值的内容输出；根据自有数据源，把 GPT 训练成我们自用的模型，需要走微调（前期训练成本比较高，后面模型稳定后成本会下降；）把原始文档转换为矢量索引。

2023-06-01 11:50:52 644

bottle 111111

工业残缺检测数据集222

objectbox课件及代码

Yolov7详解及openvino部署

yolov5的模型量化

空空如也