- 博客(71)
- 收藏
- 关注
转载 Attention Is All You Need
谷歌于2017年发布论文《Attention Is All You Need》,提出了一个只基于attention的结构来处理序列模型相关的问题,比如。相比传统的CNN与RNN来作为encoder-decoder的模型,谷歌这个模型摒弃了固有的方式,并没有使用任何的CNN或者RNN的结构,该模型可以高度并行的工作,相比以前串行并且无法叠加多层、效率低的问题。那么Transorformer可以高度并行的工作,所以在提升翻译性能的同时训练速度也特别快。
2024-07-18 16:52:18 37
原创 【Datawhale AI夏令营】电力需求预测挑战赛 Task03
以两层为例,第一层由多个基学习器组成,其输入为原始训练集,第二层的模型则是以第一层基学习器的输出作为特征加入训练集进行再训练,从而得到完整的stacking模型。进行模型融合的前提是有多个模型的输出结果,比如使用catboost、xgboost和lightgbm三个模型分别输出三个结果,这时就可以将三个结果进行融合,最常见的是将结果直接进行加权平均融合。:使用过去的值作为当前预测的特征,例如,使用前一天的销售数据来预测后一天的销售。:计算时间序列的滚动窗口内的统计量,如平均值、最大值、最小值、总和等。
2024-07-15 23:42:55 887
原创 【Datawhale AI夏令营】电力需求预测挑战赛 后续研究方向
深度学习模型,特别是LSTM和其变体、transformer模型和其变体、大模型,已经在许多时间序列预测任务中显示出了优越的性能。时间序列预测是一个不断发展的领域,随着技术的进步,我们可以期待更多的优化方法和模型的出现。随着技术的不断发展,我们可以期待时间序列预测在准确性、效率和应用范围上都会有显著的提升。
2024-07-15 23:35:38 154
原创 【Datawhale AI夏令营】电力需求预测挑战赛 Task02
Task2 版本教程将使用机器学习模型解决本次问题,模型使用简单,数据不需要过多预处理;使用机器学习方法一般主要需要从和三个方面下手。使用机器学习方法有哪几个步骤?一般的使用机器学习模型解决问题的主要步骤为探索性数据分析、数据预处理、提取特征、切分训练集与验证集、训练模型、预测结果。
2024-07-15 23:13:03 298
原创 【Datawhale AI夏令营】电力需求预测挑战赛 Task01
整个学习活动,将带你从 跑通最简的Baseline,到了解竞赛通用流程、深入各个竞赛环节,精读Baseline与进阶实践。
2024-07-15 20:58:03 603
原创 代码随想录算法训练营第二天|【数组】209.长度最小的子数组
给定一个含有 n 个正整数的数组和一个正整数 s ,找出该数组中满足其和 ≥ s 的长度最小的 连续 子数组,并返回其长度。如果不存在符合条件的子数组,返回 0。示例:输入:s = 7, nums = [2,3,1,2,4,3]输出:2解释:子数组 [4,3] 是该条件下的长度最小的子数组。
2024-07-05 11:11:54 424
原创 代码随想录算法训练营第二天|【数组】977.有序数组的平方
给你一个按 非递减顺序 排序的整数数组 nums,返回 每个数字的平方 组成的新数组,要求也按 非递减顺序 排序。进阶:请你设计时间复杂度为 O(n) 的算法解决本问题。
2024-07-04 21:47:58 192
原创 代码随想录算法训练营第一天|【数组】 27. 移除元素
给你一个数组 nums 和一个值 val,你需要 原地 移除所有数值等于 val 的元素。元素的顺序可能发生改变。然后返回 nums 中与 val 不同的元素的数量。假设 nums 中不等于 val 的元素数量为 k,要通过此题,您需要执行以下操作:更改 nums 数组,使 nums 的前 k 个元素包含不等于 val 的元素。nums 的其余元素和 nums 的大小并不重要。返回 k。用户评测:评测机将使用以下代码测试您的解决方案:// 输入数组// 要移除的值。
2024-07-04 01:23:41 152
原创 码随想录算法训练营第一天| 【数组】704. 二分查找法
给定一个 n 个元素有序的(升序)整型数组 nums 和一个目标值 target ,写一个函数搜索 nums 中的 target,如果目标值存在返回下标,否则返回 -1。提示:你可以假设 nums 中的所有元素是不重复的。n 将在 [1, 10000]之间。nums 的每个元素都将在 [-9999, 9999]之间。
2024-07-04 00:38:07 368
转载 国能日新光伏功率预测大赛的总结
人生第二次打比赛,一开始是单打独斗,完全陌生的业务场景,我根据能搜索到的Tips疯狂尝试,在别人那里好用的Trick,在我这里效果却疯狂下降,期间也通过开源的baseline学到了提取特征的常见套路,对数据的处理有了一点懵懂的感觉,直到比赛加入了靠谱的队友,但是由于时间原因,未能获得理想的成绩。新手入门,Mark一下。1:理解算法原理2:了解数据3:不能停止交流。
2024-06-18 14:06:30 145 1
转载 【转】国能日新太阳辐射指数预测大赛个人baseline(0.17)
刚接触这种比赛也没多久,大佬太多,主要是学习大佬的trick吧,拿奖是没想过了。该baseline是本人自己写的,跟大佬的baseline没法比的。特征基本上没有做,就清洗了下数据,模型采用的是最简单的。提升空间:做特征,换模型,做下融合。目前线上成绩 0.17339。
2024-06-18 13:56:45 36
原创 python 光伏相关packages
这些包的选择取决于您的具体需求,例如是否需要详细的系统建模、数据处理能力或是经济性分析工具。大多数这些包都是开源的,可以通过Python的包管理工具如pip进行安装和使用。在选择使用前,建议查看它们的文档和社区支持情况,以便找到最适合您项目需求的工具。除了PVLIB之外,还有一些其他光伏(太阳能光伏)相关的Python包和工具。这些包提供了各种功能,从光伏系统建模和仿真到数据处理和可视化。
2024-06-17 17:45:54 260
原创 python 地图+经纬度标记
如果你想在地图上显示标注点并在标注点旁边显示文字,可以使用的popup参数来实现。这个参数允许你设置在标注点上点击时显示的文本内容。在这个示例中,我们在定义经纬度坐标点的同时,添加了一个text字段,用来存储每个地点的描述文本。然后,在使用添加标记点时,将这个文本内容作为popup参数传递给标记点对象,这样当你点击标记点时,就会显示出对应的文字描述。运行这段代码后,会生成一个名为的HTML文件,其中包含了上海地图和标注点,点击标注点可以看到显示的文字内容。
2024-06-17 16:51:39 661
转载 软件工程--项目前期
结构化方法下,软件分析中的业务分析,用业务流程图来描述,业务流程图体现的还是数据为中心的思想,业务活动处理数据,并转交给下一个活动。缺点在于无法对整个现实系统所有业务情况直观简介地描述,如果业务的发起者/服务对象不承担任何业务流程中的活动时,业务流程图无法体现出来;面向对象方法下,用业务用例描述一个业务,所有的业务放在一个业务用例图上,对于现实系统的所有业务情况一览无余;项目前期必须明确系统的目标,分析研究正在运行的系统,搜集需求,进行新系统的粗略设计和可行性分析,最终撰写相应的文档。
2024-06-05 11:01:59 23
转载 软件项目开发的流程及关键点
软件的流程及关键点graph LRA[需求分析] --> B[系统设计]B --> C[编码开发]C --> D[测试验证]D --> E[部署上线]E --> F[运维支持]在项目开发的流程中,首先是进行,明确项目的目标和功能要求。接下来是系统设计,制定项目的整体架构和具体实现方案。然后进行编码开发,根据设计方案进行编码实现。完成编码后,进行测试验证,确保项目的功能和质量符合要求。测试通过后,进行部署上线,将项目投入使用。最后是运维支持,对项目进行实时监控和维护,保证项目的稳定运行。
2024-06-05 10:57:08 102
转载 软件项目研发过程中阶段划分和工作方法
此种情况采用循环sprint(冲刺)模式,一个sprint可以包括二、三、四、五阶段的全部或部分,一个sprint为一个软件版本,依次循环升级。、可行性分析,确定产品定位,预估项目成本,规划产品发展目标和前景,同时提示和预警风险,以及对应的预案和措施。: 组建项目开发团队,制订代码编写规范,开发任务分配,搭建软件开发架构,编写代码。:产品需求详细分析,结合原始需求说明文档,与甲方和用户充分沟通,确认产品细节。:解决是否可以做,是否值得做,是否有能力做的问题。运维人员搭建生产环境,部署项目,交付甲方验收。
2024-06-05 10:45:23 53
原创 第二章01 数据清洗及特征处理
我们拿到的原始数据由于统计方法或者统计过程出现的纰漏通常是不干净的,所谓的不干净,就是数据中有缺失值,有一些异常点等,需要经过一定的处理才能继续做后面的分析或建模,所以拿到数据的第一步是进行数据清洗。第二章通过学习缺失值、重复值、字符串和数据转换等操作,实现将数据清洗成可以分析或建模的数据的功能。
2024-03-14 15:51:53 917
原创 Python项目第三方依赖包生成requirements.txt的两种方法
第一种 适用于单虚拟环境的情况,会将所有包一起生成不推荐pip freeze > requirements.txt第二种 (推荐)使用pipreqspip install pipreqs #安装pipreqs . --encoding=utf8 --force # --encoding=utf8 为使用utf8编码 --force 强制执行,当 生成目录下的requirements.txt存在时覆盖。...
2021-11-04 14:00:35 426
原创 ipynb文件转为python(.py)文件
method 11,在当前文件夹的目录中输入cmd并回车(打开的cmd中会显示出你当前的目录)2,输入命令: jupyter nbconvert --to script *.ipynb3,运行完后,当前文件夹目录中的所有.ipynb文件都会转成.py文件。method 2如果不想在jupyter写代码,可以转到Python 环境或者IDE下,jupyter提供了这个转换功能:File—>Download as—>python(.py)method 3在vscode 打开ipynb
2021-09-16 10:26:59 7460 1
原创 Mac进入quote>如何退出?
在zsh工具中输入’+回车就会进入quote>,使用Ctrl+c即可退出。Mac不小心进入quote>,使用快捷键Ctrl+c即可退出。ctrl == control
2021-09-02 11:09:02 3802
原创 python sklearn 用字典保存多个算法模型并用joblib下载与调用
import copymodel_all = {} # 生成字典j = 0for model in model_list: j = j+1 m = copy.copy(model]) model_all[j]=m# downloadimport joblib# dumpdir_name = xxxxif not os.path.exists('./'+dir_name): os.makedirs('./'+dir_name)joblib.dump(model_a
2021-08-11 14:36:11 477
转载 python sklearn 用字典保存多个算法模型
希望生成一系列不同精度的 Naive Bayes 分类器,故需要保存多个这样的算法模型。在python 语言中,可以用字典来保存 算法模型import copy##需要对模型进行 copy,故要 copy 模块print('生成')for i in np.arange(0,100): y_train=flip(y1,p[i]) #print('翻转后元素真实标记比例',np.sum(y_train==y1)/y_train.shape[0]) true_label_rati
2021-08-11 14:29:47 329
原创 报错:‘wget‘ 不是内部或外部命令,也不是可运行的程序
在jupyter lab下使用wegt# 导入需要用到的数据集!wget https://tianchi-media.oss-cn-beijing.aliyuncs.com/DSW/7XGBoost/train.csv'wget' 不是内部或外部命令,也不是可运行的程序或批处理文件。报错信息‘wget’ 不是内部或外部命令,也不是可运行的程序或批处理文件。分析在jupyter notebook使用!wget遇到了这个问题,查到发现wget是linux系统下,windows不自带。解
2021-03-15 14:14:47 6376
原创 Chrome常用快捷键整理
Chrome窗口和标签页快捷键:Ctrl+N 打开新窗口Ctrl+T 打开新标签页Ctrl+Shift+N 在隐身模式下打开新窗口Ctrl+O,然后选择文件,在谷歌浏览器中打开计算机上的文件按住 Ctrl 键,然后点击链接,从后台在新标签页中打开链接,但您仍停留在当前标签页中按住 Ctrl+Shift 键,然后点击链接 在新标签页中打开链接,同时切换到新打开的标签页按住 Shift 键,然后点击链接 在新窗口中打开链接Alt+F4 关闭当前窗口Ctrl+Shift+T 重新打开上次关闭的标
2021-03-11 13:44:44 424
原创 python错误提示“non-default argument follows default argument”
def add_func(a=4, n):错误原因:没有默认值的参数后面跟一个有默认值的参数解决方案:将有默认值的参数放在最后面def add_func(n,a=4):
2021-03-11 13:33:42 286
原创 机器学习算法(一): 基于逻辑回归的分类预测下
4.2 基于鸢尾花(iris)数据集的逻辑回归分类实践在实践的最开始,我们首先需要导入一些基础的函数库包括:numpy (Python进行科学计算的基础软件包),pandas(pandas是一种快速,强大,灵活且易于使用的开源数据分析和处理工具),matplotlib和seaborn绘图。Step1:库函数导入## 基础函数库import numpy as np import pandas as pd## 绘图函数库import matplotlib.pyplot as pltimpo
2021-02-25 15:52:56 206
转载 word无法创建工作文件,请检查临时环境变量 Mark一下
问 题:word无法创建工作文件,请检查临时环境变量解决方法:1、运行regedit,打开注册表;2、找到⑴、HKEY_USERS\S-1-5-19\Software\Microsoft\Windows\CurrentVersion\Explorer\User Shell Folders⑵、HKEY_CURRENT_USER \Software\Microsoft\Windows\CurrentVersion\Explorer\User Shell Folders这两个目录里的cac
2021-02-20 15:35:41 1606
原创 SQLZOO SELECT NAME
SELECT name 练习题请戳这里:SELECT names/zh - SQLZOO找出以 Y 为开头的国家SELECT nameFROM worldWHERE name LIKE 'Y%' ;解析:截至目前,我们使用字符串作为查询条件的例子中使用的都是等于号(=)。但需进行字符串的部分一致查询时,则需要使用更加模糊一些的谓词 LIKE 。百分号(%)是“替代一个或多个字符”的通配符。因此这个 SELECT 语句表达的意思是:选取出与查询条件表达式中的字符串(这里是“Y”)具有相同
2021-02-18 14:11:45 304
原创 enumerate PYTHON
enumerate()说明enumerate()是python的内置函数enumerate在字典上是枚举、列举的意思对于一个可迭代的(iterable)/可遍历的对象(如列表、字符串),enumerate将其组成一个索引序列,利用它可以同时获得索引和值enumerate多用于在for循环中得到计数enumerate()使用如果对一个列表,既要遍历索引又要遍历元素时,首先可以这样写:list1 = ["A", "B", "C", "D"]for i in range (len(list1)
2021-01-19 20:37:19 211
原创 获取文件路径
函数解读1.os.listdir(path='')其中参数path为需要列出的目录路径。该函数返回指定的文件夹包含的文件或文件夹的名字的列表。2.walk(top, topdown=True, οnerrοr=None, followlinks=False)os.walk(path)返回三个值:root_path, file_dirsnames, filenames分别表示path的路径、path路径下的文件夹的名字和path路径下文件夹以外的其他文件,用类似于深度遍历的方式遍历文件夹中的子文件夹
2021-01-15 10:37:35 785
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人