自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 爬虫实例(一)——百度翻译

在英文输入法下,每个字符的输入会发起四个请求:sug -- langdetect -- v2transapi?在翻译栏输入内容,发现翻译结果可实时更新,说明该翻译网站为进行。网页应用能够快速地将增量更新呈现在用户界面上,而不需要重载(刷新)整个页面。为了更快的爬取速度,我们选择直接对网站接口发起请求,但该类网站的。打开edge浏览器,输入网址。

2024-02-26 14:42:28 730

原创 动手学大模型应用开发_学习笔记(五)——验证迭代、前后端搭建

让子弹飞一会。

2023-11-24 01:01:41 76

原创 动手学大模型应用开发_学习笔记(四)——数据库搭建和Prompt设计

让子弹飞一会。

2023-11-22 02:02:56 72

原创 2023.11Datewhale_Leedcode_基础数据结构篇(下)学习笔记(二)

利用双指针完成的匹配,其中大写字母的排列相等的判定可转化为:pattern 的首字母在单词中出现前和尾字母在单词中出现后,单词中是否有大写字母,中段的判定则与小写字母一并进行。为 object 类的 dict 对象赋予更多的属性,并构建多级哈希表存储数据,合并相同数据单元,用尽量少的空间换取更多时间。核心规则是:两串大写字母排列相同,patter 的字母依次在出现在单词中出现。,那么待查询项与给定模式串匹配。:将匹配结果存入由布尔值组成的答案列表中,并返回。:实现一个 MapSum 类,支持两个方法,

2023-11-20 23:53:32 60 1

原创 动手学大模型应用开发_学习笔记(三)——大模型开发流程及架构

然后,不断从业务逻辑中收集当下 Prompt 的 Bad Case,并将 Bad Case 加入到验证集中,针对性优化 Prompt,最后实现较好的泛化效果。用 Prompt Engineering 来替代子模型的训练调优,通过 Prompt 链路组合来实现业务逻辑,用一个通用大模型 + 若干业务 Prompt 来解决任务。大模型集成与API连接:集成大模型,配置 API 连接,实现与大模型 API 的交互。数据准备与向量知识库构建:收集和整理数据,向量化数据,导入知识库,建立知识库索引。

2023-11-20 00:47:22 620 1

原创 动手学大模型应用开发_学习笔记(二)——调用大模型

让子弹飞一会。

2023-11-19 02:41:24 67

原创 2023.11Datewhale_Leedcode_基础数据结构篇(下)学习笔记(一)

先集合排重,再检验是否有损失长度,判定结果即为布尔值。(一开始我居然遍历数组把元素加入空集合,结局是超时)(然后想起来我在学哈希表,所以用字典又做了一次)把数组元素添加到字典前,查询一下字典里是否已经存在该元素。:判断是否存在重复元素。如果有元素在数组中出现至少两次,返回。

2023-11-15 00:15:04 60 1

原创 动手学大模型应用开发_学习笔记(一)——大模型简介

等任务。目前包含 Claude 和 Claude-Instant 两种模型可供选择,其中 Claude Instant 的延迟更低,性能略差,价格比完全体的 Claude-v1 要便宜,两个模型的上下文窗口都是 9000 个token(约 5000 个单词,或 15 页)。最早的 Claude 于 2023 年 3 月 15 日发布,并在 2023 年 7 月 11 日,更新至。

2023-10-28 08:25:03 324

原创 电动汽车充电站充电量预测_学习笔记(二)——特征优化

由上文的数据探索容易发现:power_forecast_history.csv表中,同一场站中单日的各小时的数据基本相同,可以以场站编号和日期为组合标签,进行聚合排重;日期信息在baseline基础上,还可挖掘出节假日特征;h3编码未被使用,有待解析,用于提取特征。

2023-10-23 23:23:16 181 3

原创 电动汽车充电站充电量预测_学习笔记(一)——跑通baseline

观察发现,训练集的站点运营数据表共有约有356.6万条记录,其中,场站编码'id_encode' 范围是0~499,表中还包含 小时'hour',电费‘ele_price',服务费'ser_price',折后服务费'after_ser_price',总费用'total_price',三个业务指标'f',日期'ds' 共10个字段。站点充电量数据表中有一个新字段 充电量'power',是我们的预测目标字段,只在训练集中出现。

2023-10-18 16:29:48 242

原创 资金流入流出预测—baseline的理解和跑通

【代码】资金流入流出预测—baseline的理解和跑通。

2023-10-17 11:06:06 439

原创 2023.9Datawhale_Leetcode_算法入门与数组_学习笔记(五)

字符串是不可变对象,不能原地修改,只能通过 list() 实现序列类型的转化。不使用额外数组空间,将数组中所有数值等于 val 值的元素移除掉,并且返回新数组的长度。思路是检验所有三元组合,并尝试缩小讨论范围,比如跳过重复元素,讨论极限情况。单指针遍历太慢,对撞指针有两个起始点遍历更快,规则是:删除元素不影响自己的后续移动,但左针的删除会使右针需要额外移动一次。给定一个有序数组 nums , 在原数组空间基础上删除重复出现 2 次以上的元素,并返回删除后数组的新长度。若非旋转,无需旋转空间,直接交换即可。

2023-09-25 00:18:35 57 1

原创 2023.9Datawhale_Leetcode_算法入门与数组_学习笔记(四)

从 nums 中找到 target 所在位置,如果找到,则返回对应下标,找不到则返回 −1。给定一个排好序的数组 nums,以及一个目标值 target。给定一个数组 nums,nums 是有升序数组经过「旋转」得到的。旋转数组是拼接的有序数组,中间节点的偏移总会触发某一端的边界问题,故需要对mid指针单独处理,挖空或检验。,题目会从 1∼n 中随机选取一个数 x,通过调用接口来判断自己猜测的数是否正确,返回题目选取的数字 x。这种方法解决了数组容量低的极端情况下,程序出错的状况, 但牺牲了一点效率。

2023-09-22 00:28:03 74 1

原创 2023.9Datawhale_Leetcode_算法入门与数组_学习笔记(三)

有所区别的是,上一个涉及到的矩阵是 m * n ,而这一个涉及到的矩阵是 n * n ,所以无需担心缩小过界,只需 元素量 = 最大元素 即可。需要注意的是,尽量不要导入第三方库,既耗费内存和时间,数据格式也不兼容,与其使用numpy库的ones函数或者zeros函数快速初始化矩阵,不如使用简单朴素的列表生成式得到二维数组。需要注意的只是遍历的方向,以及每次缩小后的检查判定。给定一个非负整数数组 nums ,将数组中的数字拼接起来排成一个数,打印能拼接出的所有数字中的最小的一个。的运动员得分最高,名次第。

2023-09-18 13:00:35 99 1

原创 2023.9Datawhale_Leetcode_算法入门与数组_学习笔记(二)

先讨论了中心下标位于数组最左端的情况,然后再讨论一般情况,其中中心下标位于数组最右端和不存在中心下标两种情况的返回值一致为-1,便作为默认值最后输出。思路很简单,把末尾元素复制到开头,再删除原元素,但注意不要使用remove函数,因为nums[0]=nums[-1],而函数只删除最左边的一个元素。标答先采用逆序遍历,找到第一个不为9的元素,进一后处理后续为9的元素,然后补充了全为9的情况,用运算式和数组长度实现进位。给定一个非负整数数组,数组每一位对应整数的一位数字,计算整数加 1 后的结果。

2023-09-13 07:39:06 86

原创 2023.9Datawhale_Leetcode_算法入门与数组_学习笔记(一)

凭借不到一个月的Python基础,我将接触Leetcode这个代码在线评测平台,不断刷题以练习编程技能并提高算法能力。这一系列的学习笔记将会在学习期间随着我不断深入的认知而持续修正和更新。

2023-09-10 18:24:39 135 1

原创 小白第一月Python学习笔记

记录一下自己学py的过程。自认为教一个人最好的就是自己刚学完的时候,我还清楚的记得所有初学者会产生的疑惑,所以趁热打铁写了一份教程,但编程环境的配置我就不多赘述了,个人用的Pycharm,可以自己去网上找相关教程配置。感兴趣的朋友学习时,一定要边敲边看输出结果,仔细理解注释,知识才不容易溜走。

2023-08-26 14:29:46 47

原创 2023.8夏令营“用户新增预测”学习笔记(六)

今日任务--探索新的模型LightGBM。

2023-08-23 21:16:56 79

原创 2023.8夏令营“用户新增预测”学习笔记(五)

今日任务--特征工程特征工程指的是把原始数据转变为模型训练数据的过程,目的是获取更好的训练数据特征。特征工程能使得模型的性能得到提升,有时甚至在简单的模型上也能取得不错的效果。

2023-08-22 18:30:48 104 1

原创 2023.8夏令营“用户新增预测”学习笔记(四)

随便记点今天学的。

2023-08-21 18:59:45 89

原创 2023.8夏令营“用户新增预测”学习笔记(三)

验证交叉验证(Cross-Validation)是机器学习中常用的一种模型评估方法,用于评估模型的性能和泛化能力。它的主要目的是在有限的数据集上,尽可能充分地利用数据来评估模型,避免过拟合或欠拟合,并提供对模型性能的更稳健的估计。交叉验证的基本思想是将原始的训练数据划分为多个子集(也称为折叠),然后将模型训练和验证进行多次循环。在每一次循环中,使用其中一个子集作为验证集,其他子集作为训练集。这样可以多次计算模型的性能指标,并取这些指标的平均值作为最终的模型性能评估结果。

2023-08-20 22:50:26 148

原创 2023.8夏令营“用户新增预测”学习笔记(二)

数据探索性分析,是通过了解数据集,了解变量间的相互关系以及变量与预测值之间的关系,对已有数据在尽量少的先验假设下通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法,有助于后期更好地进行特征工程和建立模型。

2023-08-20 00:21:56 158 2

原创 2023.8夏令营“用户新增预测”学习笔记(一)

用户在使用平台的场景中有各种各样的访问操作(即行为),如点击、浏览、退出等操作,用户本身也具有各种各样的属性,如性别、年龄、爱好等,它们被脱敏化处理后,在保护了用户隐私的前提下,抽象成了训练集数据,能够被程序提取特征,并进行分类判断。从内层开始分析,对数据集的udmap一列的所有行使用前述的udmap_onethot函数对udmap编码成九维向量,并纵向折叠成矩阵,最后转化成pd的数据结构DataFrame对象。召回率=TP/(TP+FN),即答对的题中正例的比例,体现一个模型的全面性,对的都能找出。

2023-08-18 23:09:24 85

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除