- 博客(14)
- 资源 (1)
- 收藏
- 关注
原创 一种贝叶斯优化调参的方法
贝叶斯优化相比随机搜索、网格搜索来说,可以在有限的计算次数内更快地找到近似最优解,从而提高调参的效率,与梯度下降相比,贝叶斯优化本身也是一种最优化方法。
2021-12-08 15:14:03
980
原创 通过selenium获取企业招聘信息和工商注册信息
通过selenium模拟浏览器操作,实现“可见即可爬”,即使是客户端渲染的页面,也不需要解析ajax请求,直接通过webdriver获取数据就可以了。
2021-12-08 14:52:18
894
原创 pandas的apply函数常见用法总结
pandas的apply函数通常用于一些复杂的遍历操作(遍历可迭代对象的同时执行一些自定义函数),它的可定制程度高,而且比itterrows、for等操作效率更高,是我非常喜欢而且常用的一个函数。
2021-12-08 14:40:07
2707
原创 一个自定义的图片批量下载函数
在一个DataFrame里面保存所有待下载图片的URL和name,设置下载图片的路径,运行如下代码:import requestsimport shutilfrom tqdm import tqdmfrom concurrent.futures import ThreadPoolExecutorfrom pathlib import Pathdef save_image(session, img_url, file_name): """ 下载一张图片到指定文件夹 :param sess
2021-11-29 11:16:31
259
原创 用于专利申请的创新提案模板
最近发专利比较多,整理一个专利申请的提案模板,分享给需要的朋友。基本信息申请说明(理由)为什么需要这篇专利,解决了行业内什么问题?提案内容0. 术语解释对专利中涉及的术语进行解释关键词专利的关键词1. 应用本方案的产品产品名称2. 本方案的背景是什么一些关于行业背景和应用场景的简要说明3. 行业内哪些竞争对手的业务/产品和本方案相关?请列出竞争对手的名称和相关业务/产品的名称竞品的名称4. 本方案是否有敏感的部分不适合作为专利申请公开否5. 详细介绍与本方案相似的方案及其缺
2021-11-29 10:44:46
985
原创 IoU、GIoU、DIoU、CIoU计算方法
IoUIoU就是我们所说的交并比,是目标检测中最常用的指标,在anchor-based的方法中,他的作用不仅用来确定正样本和负样本,还可以用来评价输出框(predict box)和ground-truth的距离。可以说它可以反映预测检测框与真实检测框的检测效果。还有一个很好的特性就是尺度不变性,也就是对尺度不敏感(scale invariant), 在regression任务中,判断predict box和gt的距离最直接的指标就是IoU。(满足非负性;同一性;对称性;三角不等性)IoU的一种实现
2021-11-28 17:12:24
4559
原创 与时间处理相关的几种方法
时间戳是项目里面很重要的类型,以下记录几种常用的时间处理方法,包含时间戳转换、时间戳拓展、运行时长统计。自定义的时间类型转换函数import pandas as pdimport datetimeimport redef convert_time(time_str): """ 将字符串表示的时间或时间戳转化为pandas的Timestamp格式 :param time_str: 2020-08-20 10:00:50.354000 or 1597888849342000
2021-11-28 16:37:21
577
原创 python操作配置文件的方法
配置文件格式这里以ini配置文件为例:[base_info]version = 20211128auto = Truestart_time = 2021-11-28 18:00:00[database]host = xxxxxxxport = 5432database = xxxuser = xxxpassword = xxxxxxxini配置文件由section组成,"[]"内的文字是section的标题,每个section下的键值对记录相应的配置。读取配置文件import
2021-11-28 16:24:42
426
原创 几种自定义类型转换的方法
字典对象转换为类对象import jsondef convert_dict_to_class(dict_obj): """ 把字典对象转换为类对象 :param dict_obj: 输入字典对象 :return: 类对象 """ json_str = json.dumps(dict_obj) class Factory: def __init__(self, d): self.__dict__ = d
2021-11-28 16:13:12
368
原创 python项目日志生成方式
日志的配置文件内容[loggers]keys=root,sampleLogger[handlers]keys=consoleHandler,fileHandler[formatters]keys=sampleFormatter,complexFormatter[logger_root]level=DEBUGhandlers=consoleHandler[logger_sampleLogger]level=DEBUGhandlers=consoleHandler,fileHan
2021-11-28 16:08:57
1533
1
原创 操作postgre数据库的python脚本
连接数据库通过建立connect对象的方式import psycopg2def establish_connection(host, port, dbname, user, password): """ 建立连接关系并返回连接对象 :return: 连接对象 """ try: conn_string = f"host={host} port={port} dbname={dbname} user={user} password={passwo
2021-11-28 15:38:25
1339
原创 [时序波动关联]模型CoFLUX论文要点整理
时序波动关联模型CoFLUX论文要点整理简介在互联网公司里面,通常都会监控成千上万的时间序列,用于保障整个系统或者平台的稳定性。在这种情况下,如果能够对多条时间序列之间判断其是否相关,则对于监控而言是非常有效的。基于以上的实际情况,清华大学与 Alibaba 集团在2019年一起合作了论文《CoFlux: Robustly Correlating KPIs by Fluctuations for Service Troubleshooting》,并且发表在 IWQos 2019 上。CoFlux 这个方
2021-11-26 19:17:35
2182
原创 XGBoost总结
1 概述XGBoost是陈天奇等人开发的一个开源机器学习项目,高效地实现了GBDT算法并进行了算法和工程上的许多改进,被广泛应用在许多机器学习竞赛中并取得了不错的成绩,在工业界也广受欢迎。XGBoost本质上还是一个GBDT,但是力争把速度和效率发挥到极致,所以叫X (Extreme) GBoosted。XGBoost算法的在性能、速度方面都超越了许多其他算法,主要得益于以下几个方面:是一个基于多个弱分类器组成的模型,可以有效降低过拟合的风险提出了一种加权分桶的方法,减少计算量对稀疏数据进行默认
2021-11-24 16:31:03
939
BBN.iNaturalist2017.res50.180epoch.best_model.pth
2022-09-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人