Ray_awakepure-CSDN博客

原创大模型从训练到使用的完整流程

获得强大的基础语言能力学会理解和执行指令进行自然的对话交互保持安全和道德标准在实际应用中高效运行每个阶段都是必要的，缺一不可。这种层层递进的训练和优化过程，最终使得大模型能够安全、高效地服务于实际应用场景。

2024-12-03 10:12:26 295

原创一种贝叶斯优化调参的方法

贝叶斯优化相比随机搜索、网格搜索来说，可以在有限的计算次数内更快地找到近似最优解，从而提高调参的效率，与梯度下降相比，贝叶斯优化本身也是一种最优化方法。

2021-12-08 15:14:03 1259

原创通过selenium获取企业招聘信息和工商注册信息

通过selenium模拟浏览器操作，实现“可见即可爬”，即使是客户端渲染的页面，也不需要解析ajax请求，直接通过webdriver获取数据就可以了。

2021-12-08 14:52:18 1011

原创 pandas的apply函数常见用法总结

pandas的apply函数通常用于一些复杂的遍历操作（遍历可迭代对象的同时执行一些自定义函数），它的可定制程度高，而且比itterrows、for等操作效率更高，是我非常喜欢而且常用的一个函数。

2021-12-08 14:40:07 2903

在一个DataFrame里面保存所有待下载图片的URL和name，设置下载图片的路径，运行如下代码：import requestsimport shutilfrom tqdm import tqdmfrom concurrent.futures import ThreadPoolExecutorfrom pathlib import Pathdef save_image(session, img_url, file_name): """ 下载一张图片到指定文件夹 :param sess

2021-11-29 11:16:31 407

原创用于专利申请的创新提案模板

最近发专利比较多，整理一个专利申请的提案模板，分享给需要的朋友。基本信息申请说明（理由）为什么需要这篇专利，解决了行业内什么问题？提案内容0. 术语解释对专利中涉及的术语进行解释关键词专利的关键词1. 应用本方案的产品产品名称2. 本方案的背景是什么一些关于行业背景和应用场景的简要说明3. 行业内哪些竞争对手的业务/产品和本方案相关？请列出竞争对手的名称和相关业务/产品的名称竞品的名称4. 本方案是否有敏感的部分不适合作为专利申请公开否5. 详细介绍与本方案相似的方案及其缺

2021-11-29 10:44:46 2328

原创 IoU、GIoU、DIoU、CIoU计算方法

IoUIoU就是我们所说的交并比，是目标检测中最常用的指标，在anchor-based的方法中，他的作用不仅用来确定正样本和负样本，还可以用来评价输出框（predict box）和ground-truth的距离。可以说它可以反映预测检测框与真实检测框的检测效果。还有一个很好的特性就是尺度不变性，也就是对尺度不敏感（scale invariant），在regression任务中，判断predict box和gt的距离最直接的指标就是IoU。(满足非负性；同一性；对称性；三角不等性)IoU的一种实现

2021-11-28 17:12:24 4984

原创与时间处理相关的几种方法

时间戳是项目里面很重要的类型，以下记录几种常用的时间处理方法，包含时间戳转换、时间戳拓展、运行时长统计。自定义的时间类型转换函数import pandas as pdimport datetimeimport redef convert_time(time_str): """ 将字符串表示的时间或时间戳转化为pandas的Timestamp格式 :param time_str: 2020-08-20 10:00:50.354000 or 1597888849342000

2021-11-28 16:37:21 658

原创 python操作配置文件的方法

配置文件格式这里以ini配置文件为例：[base_info]version = 20211128auto = Truestart_time = 2021-11-28 18:00:00[database]host = xxxxxxxport = 5432database = xxxuser = xxxpassword = xxxxxxxini配置文件由section组成，"[]"内的文字是section的标题，每个section下的键值对记录相应的配置。读取配置文件import

2021-11-28 16:24:42 505

原创几种自定义类型转换的方法

字典对象转换为类对象import jsondef convert_dict_to_class(dict_obj): """ 把字典对象转换为类对象 :param dict_obj: 输入字典对象 :return: 类对象 """ json_str = json.dumps(dict_obj) class Factory: def __init__(self, d): self.__dict__ = d

2021-11-28 16:13:12 428

原创 python项目日志生成方式

日志的配置文件内容[loggers]keys=root,sampleLogger[handlers]keys=consoleHandler,fileHandler[formatters]keys=sampleFormatter,complexFormatter[logger_root]level=DEBUGhandlers=consoleHandler[logger_sampleLogger]level=DEBUGhandlers=consoleHandler,fileHan

2021-11-28 16:08:57 1710 1

原创操作postgre数据库的python脚本

连接数据库通过建立connect对象的方式import psycopg2def establish_connection(host, port, dbname, user, password): """ 建立连接关系并返回连接对象 :return: 连接对象 """ try: conn_string = f"host={host} port={port} dbname={dbname} user={user} password={passwo

2021-11-28 15:38:25 1413

原创 [时序波动关联]模型CoFLUX论文要点整理

时序波动关联模型CoFLUX论文要点整理简介在互联网公司里面，通常都会监控成千上万的时间序列，用于保障整个系统或者平台的稳定性。在这种情况下，如果能够对多条时间序列之间判断其是否相关，则对于监控而言是非常有效的。基于以上的实际情况，清华大学与 Alibaba 集团在2019年一起合作了论文《CoFlux: Robustly Correlating KPIs by Fluctuations for Service Troubleshooting》，并且发表在 IWQos 2019 上。CoFlux 这个方

2021-11-26 19:17:35 2650

原创 XGBoost总结

1 概述XGBoost是陈天奇等人开发的一个开源机器学习项目，高效地实现了GBDT算法并进行了算法和工程上的许多改进，被广泛应用在许多机器学习竞赛中并取得了不错的成绩，在工业界也广受欢迎。XGBoost本质上还是一个GBDT，但是力争把速度和效率发挥到极致，所以叫X (Extreme) GBoosted。XGBoost算法的在性能、速度方面都超越了许多其他算法，主要得益于以下几个方面：是一个基于多个弱分类器组成的模型，可以有效降低过拟合的风险提出了一种加权分桶的方法，减少计算量对稀疏数据进行默认

2021-11-24 16:31:03 1047