atwdy-CSDN博客

原创【python】functools.lru_cache自动缓存

lru_cache是Python3.2版本在functools标准模块中引入的装饰器，用于实现最近最少使用（Least Recently Used, LRU）缓存策略，适用于所有相同输入对应相同输出的确定性函数，即缓存函数的参数和返回值的映射，只要下次调用参数相同，就直接返回缓存的结果，不再执行函数体。缓存命中：当使用相同的参数调用被装饰的函数时，函数不会真正执行，而是直接从缓存中返回结果。缓存未命中：当参数不在缓存中时，函数正常执行，并将结果存入缓存。

2026-02-10 10:51:00 518

原创【面向对象】一文理解多态（基于java+python）

其实java中的对象也可以这么理解，接口或者父类相对子类而言更像是一种允许能力复刻和延伸的模板，子类默认继承所有父类具有的属性和能力，但在此基础之上又可以对继承过来的属性或能力进行个性化DIY或者增加自己独有的属性或能力，从这个角度上来看父类更像是一种通用类型，子类更像是一种具体类型，因此将小类型向大类型转换是合理的，就像42码的脚穿上了44码的鞋，包容的下。而对于【编译看右，运行看右】的理解，“运行看右”说的还是方法的查找调用顺序取决于实际对象类型，和上面向上转型中没有区别。

2025-11-23 14:01:18 711

转载【转载】Skip List--跳表（全网最详细的跳表文章没有之一）

跳表是可以实现二分查找的有序链表；每个元素插入时随机生成它的level；最底层包含所有的元素；如果一个元素出现在level(x)，那么它肯定出现在x以下的level中；每个索引节点包含两个指针，一个向下，一个向右；（笔记目前看过的各种跳表源码实现包括Redis 的zset 都没有向下的指针，那怎么从二级索引跳到一级索引呢？留个悬念，看源码吧，文末有跳表实现源码）跳表查询、插入、删除的时间复杂度为O(log n)，与平衡二叉树接近；

2025-09-23 17:55:58 119

原创【数据结构】——外部排序（K路归并）

spark中目前默认shuffle方式是Sort Shuffle，单个map task数据量很大时会并不断地将内存中的数据排序后写到磁盘，每次溢写磁盘都会产生一个有序的小文件，最后这些溢写的小文件会通过归并排序合并成一个大的有序文件和索引文件，下游reduce task可以根据索引直接读取自己分区的数据。解决方式就是使用归并排序，分批读取这个数组，比如每次读取3个G左右，对这部分数据排序后写到磁盘，然后读取下一批，这样最后大约会有7个小文件，每个小文件内部都有序。，k是总的归并路数，n是总的元素个数。

2025-09-23 14:38:28 577

原创【数据结构】——二叉搜索树（二叉排序树、二叉查找树、BST）

二叉搜索树，也叫二叉排序树、二叉查找树、BST（Binary Search Tree）…普通的二叉树中，根节点、左子节点、右子节点间的值没有大小关系的约定，这种无序性导致普通二叉树也不方便用来查找。二叉搜索树是在二叉树的基础上，要求左子节点必须小于根节点，右子节点必须大于根节点。对左右子节点以根节点继续递归定义。准确定义为：二叉排序树（BST）是这样一种二叉树：1）若它的左子树不为空，则左子树上所有节点的值都小于根节点的值。2）若它的右子树不为空，则右子树上所有节点的值都大于根节点的值。

2025-09-17 16:15:49 745

原创【Python&C】Python C拓展构建流程实践

要求返回值必须是PyObject*类型。参数固定写法，是用来接收py传递进来的位置参数，所有位置参数都会被打包成一个元组。传递进来的位置参数用函数解析，中，dd是一个格式化字符，表示传递进来的有两个位置参数，都按照C中的double类型解析，并分别赋值给ab。如果可以成功解析返回一个非0值(true)，解析失败返回0(false)。中，表示用函数对传递进来的值a+b按照格式化符d(double)类型创建一个类型的对象，该类型可以看作是通用类型PyObject的一个“子类”，所以最终返回的是一个。

2025-08-06 16:00:25 1194

原创【C】指针基础

指针是一种指向内存地址的变量。所以指针只是一种比较特殊的变量，和普通变量区别在于指向的值类型不同。普通变量是直接指向值，指针是指向值的内存地址。上面那个定义个人觉得理解起来可能会有些歧义，因为普通变量指向具体的值，但是值本身也需要开辟一块实际的物理地址进行保存，这个角度理解普通变量也仍然指向的是一块实际的内存地址。导致会产生歧义的原因在于，这里的指向并不是变量到变量对应的物理内存的映射，而是变量对应的物理内存中存储内容的区别。

2025-08-04 19:50:38 1064

原创【python】列表“*”方式与推导式方式初始化区别

如果列表长度为1，源码574行直接开辟n个长度的空间并复制列表首元素的地址；如果列表长度>1，581~582行将原列表的前n个元素地址复制到新列表的前n个元素位置，585~586行直接将新列表中前n和位置元素的地址批量复制到后面的内存空间。结果测试用例总是不通过，解题思路似乎也看不出问题，gpt检查是dp数组初始化的问题。），第一次解题代码中将下面代码中的二维dp数组的初始化中通过。

2025-07-30 21:09:06 257

原创 MacOS安装linux虚拟机

在学习docker时用的云环境本身就是一个容器，启动docker总是各种问题，所以直接在本机上装一个虚拟机。

2025-07-17 21:02:21 1176

原创【python】python中的字符串自动拼接

python中的字符串自动拼接发生在编译成字节码的时期，只会对字符串字面量进行自动拼接。

2025-07-08 12:00:18 310

原创【python】转义符号“\”在python中使用时的易混点辨析

主要需要区别理解，转义字符在python中的普通字符串场景使用，以及在python中的正则场景使用的区别，而正则场景中使用时，会涉及到两个层面的转义：1）语言层面。2）正则层面。

2025-07-07 20:44:06 631

原创筛选条件在on和where中的区别（基于hivesql）

对group by分组后的结果进行过滤（注意此时过滤的数据粒度不是单条记录，而是整个分组）。所以从执行顺序可以看出筛选条件放在where和on中，最本质的区别是过滤的时机不同，保留了左表的全部记录，逻辑上和先从右表筛选，拿筛选后的结果和左表关联的效果一样。：确定数据源是什么，from后可以是单表，可以是多表的join操作。：选择结果字段（窗口函数的执行时机也在此时）。：对where筛选后的结果分组。：对select的结果执行排序。：对from的数据源进行筛选。：限制最终的结果数量。

2025-04-14 16:55:13 462

原创基于embedding进行语义相似度检索全流程实践

本次测试目标为跑通基于embedding的文本语义匹配的基本流程，测试流程主要分为：=> 1）通过预训练模型生成embedding=> 2）保存embedding到文件=> 3）基于embedding文件构建faiss索引并持久化保存=> 4）加载faiss索引进行语义化检索匹配。

2025-04-03 19:05:34 1390

原创基于Qwen2.5-7B-Instruct进行LoRA微调推理全流程探索

ms-swift是一个针对大模型微调的高层封装框架，旨在简化训练流程、统一接口并集成多种微调技术，如 LoRA、QLoRA、Prefix Tuning等。通过ms-swift实现LoRA微调，仅需配置参数，无需关心底层实现。使用ms-swift，通过lora方式微调下载的基座模型，产出微调的权重文件。使用下载的基座模型，先测试一下推理效果作为合并LoRA后推理效果的对照，参考。本次测试目的为跑通模型部署，微调及推理全流程，首先下载模型到本地，参考。圈起来的就是最终的微调结果，在推理时加载改结果就可以了。

2025-03-27 20:50:06 1757

原创【hadoop】hadoop streaming

hadoop streaming可以将任何可执行的文件，如sh脚本，py脚本，嵌入到分布式环境当中执行MR的逻辑，而不必局限于java语言。hadoop会在每个启动的任务进程中初始化指定的map或reduce脚本并执行，map或reduce任务通过标准输入流读取数据，标准输出流写出数据。，是key+一个value构成的迭代器。而streaming任务中，map输出的相同key的数据只会被依次相邻的送到同一个reduce这样。

2025-03-26 20:30:41 1229

原创 LCS算法（文本相似度计算）

LCS，Longest Common Subsequenc，最长公共子序列，子序列在原序列中可以不连续，但必须先后顺序保持一致。例如ABCD中，BD是一个子序列，DB不是。LCS常被用来计算文本相似度，其中的一种相似度计算方式：这种计算方式的优点是可以平衡两文本长度差异，更公平。

2025-03-19 17:55:16 552

原创正则表达式梳理（基于python）

正则表达式（regular expression）是一种针对字符串匹配查找所定义的规则模式，独立于语言，但不同语言在实现上也会存在一些细微差别，下面基于python对常用的相关内容进行梳理。

2025-03-05 19:52:59 1541 1

原创【决策树】分类属性的选择

实现决策树算法最关键的一点就是如何从所有的特征属性中选择一个最优的属性对样本进行分类，。

2025-03-03 17:27:04 1250

原创【python】协程（coroutine）

coroutine/task/future都是可await获取执行结果的，但await coroutine并不会创建task，会挂起同步等待await的协程执行完再回到当前协程继续执行，而await task/future时，会异步等待task完成。注意这里的执行指的是占用CPU计算，不包括等待阻塞等场景。1）直接await coroutine时，阻塞执行，两个协程各自sleep 1s，共用时2s+2）await task时，非阻塞执行，两个task各自sleep 1s，共用时1s+

2025-02-21 16:57:07 1138

原创基于阿里云调用deepseek大模型

每个模型的详细信息中会有API示例（），需要做的就是申请自己的API key就行了，过程中可能需要。。

2025-02-18 18:12:15 1342

原创【leetcode】关于循环数组的深入分析

给定一个整数数组 nums，将数组中的元素向右轮转 k 个位置，其中 k 是非负数。

2025-02-13 13:27:14 862

原创【python】参数解析

python中实现参数解析主要有两种方式，argparsesys.argv，前者适合复杂场景，后者适合简单场景。

2025-02-12 13:22:36 382

原创【python】http.server内置库构建临时文件服务

需要从linux开发机上下载一个文件到本地，约700M比较大，通过sz命令下载较慢且传输过程不稳定连续失败，后采用下面方式解决。cd到一个目录下执行，port为服务的端口号：启动后浏览器中访问服务地址，从这里可以直接查看目录下所有的文件&下载。下面是服务的参数源码：-b绑定服务监听的ip地址，默认值0.0.0.0公网所有ip都可以访问，127.0.0.1只能本机访问，该参数不用调整。-d设置哪个目录作为根目录，默认值执行命令时的当前所在目录。port。

2025-02-11 19:57:09 604

原创【shell】索引数组&关联数组

关联数组的增删改查操作都和上面索引数组类似，同名索引也会相互覆盖，不多余说明了，唯一需要注意的是，参数表示声明后面的变量为数组类型），也可以不声明直接对一个变量应用数组相关的操作变为数组，比如。和2类似，不加：无论数组中的元素在赋值时是何种形式，在读取时默认都按照空格拆分为多个独立元素。获取数组长度时无区别，且无论加不加引号，获取的都是数组的实际长度，但推荐后者，更符合习惯。带引号赋值，可以将引号中的内容识别为一个整体，即使引号中的元素包含空格。，删除后该位置索引等同于跳过了，不会参与数组长度的统计。

2025-02-10 12:47:44 1117

原创【线性代数】通俗理解特征向量与特征值

这一块在线性代数中属于重点且较难理解的内容，下面仅个人学习过程中的体会，错误之处欢迎指出，有更简洁易懂的理解方式也欢迎留言学习。

2025-01-07 20:00:25 1951

原创【leetcode】摩尔投票算法

摩尔投票算法的思想是，将每一个元素视为一个潜在的候选元素，开始选择第一个元素为候选元素并计票。往后每出现一个和候选元素相同的元素票数+1，不相同的元素票数-1。当第一个选定的候选元素票数为0时表明截止此时存在相同数量个不同于候选元素的其他元素，所以它们之间可以“抵消”（因为题意中的多数元素是指过半的元素），抵消之后重新选择下一个元素为候选元素。多数元素是指在数组中出现次数大于 ⌊ n/2 ⌋ 的元素。输入：nums = [2,2,1,1,1,2,2]的元素，n为输入元素长度。

2025-01-07 12:25:57 535

原创【python】unittest单元测试

如果指定模块，会测试模块中所有测试类的全部方法。（命令执行目录下需要能搜索到指定模块，注意模块名不包含.py）所以这种方式启动的话，建议脚本中只写一个测试类，且类中只写一个测试方法，所有的测试逻辑都放在该方法里。下面是根据文档写的一个demo，主要的内容基本都包含了，使用时导入自己的业务类测试类中的方法就行。（如果一个脚本中有多个测试类、一个测试类中有多个测试方法的话）。这种方式可以直接指定模块、具体的测试类及测试方法等。

2024-12-31 16:55:09 692

原创【python】is、== 两种比较方式的区别

比较的是对象的值时，这里的对象其实仅指的是python中自带的一些可变容器类型，比如列表。因为这些容器类型源码中已经预实现了。这种理解也没错，但是需要注意一个前提，当说。如果对象的类或父类中没有实现这个魔术方法，比较运算符时，其实调用的就是这个方法。相同，比较的还是对象的内存地址。方法，当在python中使用。

2024-12-20 20:17:42 303

原创【线性代数】理解矩阵乘法的意义（点乘）

大学刚接触线性代数时，很不理解矩阵乘法的计算规则，为什么规则定义的看起来那么有规律却又莫名其妙，现在参考了一些资料，回过头重新总结下个人对矩阵乘法的理解（严格来说是点乘）。理解矩阵和矩阵的乘法，可以先理解矩阵和向量的乘法，因为矩阵可以看成是不同列向量的集合。下面从基变换视角理解矩阵的乘法原理，基变换视角是将矩阵的每个列向量看成是新基坐标系中的一个基坐标。先考虑一个规则的 2x2 的矩阵和一个 2x1 的向量之间的乘法，例如：[1−212][11]=[−13]\begin{bmatrix} 1

2024-12-17 17:24:01 3401 4

原创理解梯度下降

开始可以随机化一个点x=10，该点处导数=20，表示x=10这个点处函数值的趋势是增加的，且这种趋势的增长速率是20，因此需要调小x的值才更可能找到较小的函数值。导数本身的值可以满足这种需求，但是直接以导数本身来调也不合适，比如在x=10的点处，按照导数值本身来调的话新的x值=10-2x10=-10，此时x位置跑到对称的另一边了，该点x=-10处导数值为-20，表示函数在这个地方是减少的，需要调大x的值，继续迭代下一个新的x值又回到了x=10处，一直会来回震荡，永远找不到最低点。

2024-11-22 19:26:48 1224

原创【python】一个python代码执行分析工具（viztracer）

一个轻量级python执行和性能分析工具，可以跟踪程序的执行过程，记录函数调用、线程信息、函数执行时间等数据。

2024-11-18 16:38:59 795

原创【python】os.fork进程创建

在类unix系统中，fork系统调用一般采用了写时复制（Copy on Write）技术，fork出来的子进程会复制一份父进程的内存页表作为自己的内存页表，因为页表项中虚拟内存页指向的实际物理内存页还是原来的，所以进程间内存也是共享的。fork，叉子、分叉的意思。注意这个返回的值跟os.getpid()返回的pid含义不同，os.getpid()返回的是当前进程的进程号，而fork调用返回的值更像是一个进程内部的标识变量，只不过这个变量的值在父进程中定义为子进程的进程号（便于控制子进程）。

2024-10-30 20:23:26 1200

原创【python】logging日志模块使用快速入门

1-5日志级别由低到高，日志级别的设定是一个阈值，设定为某个级别后，这个级别及以上级别的日志才会被记录。比如设定为INFO，那么INFO、WARNING、ERROR、CRITICAL的日志会被记录，DEBUG级别的日志不会被记录。NOSET特殊一些，不属于日志级别的定义，表示不设置级别，继承父记录器的日志级别。logging模块默认将日志输出到标准错误流（sys.stderr），与日志级别设置无关。日志属于程序调试信息，与正常输出理应隔离，不影响正常输出，所以也可以理解为什么这样设计。

2024-10-28 16:44:08 1024 1

转载【转载】16张图解带你掌握一致性哈希算法

不同的负载均衡算法适用的业务场景也不同的。轮训这类的策略只能适用与每个节点的数据都是相同的场景，访问任意节点都能请求到数据。但是不适用分布式系统，因为分布式系统意味着数据水平切分到了不同的节点上，访问数据的时候，一定要寻址存储该数据的节点。哈希算法虽然能建立数据和节点的映射关系，但是每次在节点数量发生变化的时候，最坏情况下所有数据都需要迁移，这样太麻烦了，所以不适用节点数量变化的场景。为了减少迁移的数据量，就出现了一致性哈希算法。

2024-09-24 15:22:08 188

原创【Linux&Python】linux中通过源码方式安装python环境

python环境安装仅看第二部分即可。

2024-08-12 13:39:24 1501

原创【hive】HiveSQL中两个json解析函数的使用&json路径定位小工具

虽然逻辑上理解并不矛盾，尽管该UDTF返回的是个表，但一行输入只会对应一行输出，只是输出的字段可能是多个，并不像explode那样返回的是多行。和get_json_object不同的是，get_json_object是一个普通的UDF函数，返回的是一个值。，该函数适用于对传入的json对象一次性解析多个key的场景，如果用get_json_object需要解析多次，该函数只需要解析一次。（通配符个人认为适用的场景为取同一层级所有对象的某个属性时，如果是取所有对象本身，那么直接不加。

2024-08-04 03:57:17 2408

原创【pandas】read_csv时数据行数减少或报错

字符，其中83261行和119979行中都只包含一个，所以导致83261行和119979行中的引号匹配。read_csv方法在解析文件时，默认会将双引号内的内容当作一个整体，因此83261行引号之后到119979整行数据，都会被解析成83261行的一个字段，这中间的数据行也就都丢失了。，该参数的含义是忽略文本字段中的所有引号，但是也可能会带来一个问题，就是引号中如果包含特殊字符比如分隔符，就会导致解析的字段变多引发异常。匹配时把其它的行误当作引号中的内容，解析成了一个字段。两者都可能是文件中包含特殊字符。

2024-07-22 16:39:56 1325

原创【Linux】常用命令总结（updating）

shell命令可以使用man查看命令文档说明，说明界面中可通过b(backward)向上翻页，f(forward)向下翻页，g(go to)跳到说明首页，G跳到说明尾页。

2024-07-11 13:35:27 812

原创【Linux】shell基础&知识点（updating）

从输出结果也可以看到：管道操作并非后面的进程在前面的进程执行完后启动，而是同时启动，只有当前面进程的标准输出是后面进程的标准输入时，前面进程才会一定先于后面进程执行完。1）bash与sh的区别：可以简单理解为，bash在sh的基础上，增加了更多的拓展特性，适合编写更复杂的脚本，兼容sh。bash、sh、以及相对路径或绝对路径的方式执行，相当于在当前进程中新开了一个子进程用来执行脚本，脚本执行完子进程销毁，子进程中定义的变量&环境不会回传给父进程。≠0)时，后面命令才会执行。=0)时，后面的命令才会执行。

2024-07-09 18:25:02 1422

原创【hive】数据采样

参考，可以直接查看原文，下面只是对原文进行概括和实际性能测试。

2024-07-05 19:22:30 1583

typora免费正版安装包

iterm2-zmodem脚本

pandas中iloc属性传递lambda表达式遇到的问题