- 博客(1216)
- 资源 (22)
- 问答 (2)
- 收藏
- 关注
原创 开车驾驶 坐姿调节记录
肩膀必须贴着椅背 然后伸直手臂:手腕能刚好搭在方向盘顶部。头枕应该 对准后脑中部 而不是脖子,否则追尾容易颈椎甩伤。椅背通常不要超过:100–110°。应该: 拉近到你,而不是你凑过去。眼睛距离车顶大概 8–10cm。理想状态:手肘弯曲约 120°。目标: 膝关节 ≈ 120°。坐好后:把刹车踏板踩到底。第一步:先调座椅前后(最关键)第四步:调方向盘(很多人忽略)第五步:调头枕(安全关键)第六步:检查最终状态。
2026-03-03 10:10:44
331
原创 spark3.4新特性 LCA 横向列名引用
f1 + 2 AS f2 会报错f1不存在;spark 3.4之后不会,目的是简化sql写法;和原始字段同名,优先用原始字段;window agg 中都支持。where条件中不能用。
2026-03-02 10:35:51
52
原创 jupyterhub on k8s jupyter总是无响应
pod hub-59b8588b84-28lxx 或者 proxy-7f87544d4c-gpjb5 oom重启导致断连,增加cpu和内存配置即可.pod jupyter-${用户名} 稳定。
2026-01-22 11:00:30
426
原创 spark view永久保存 + paimon对应的view
spark 3.2paimon 1.2sudo -i spark-sql \--master local[*] \--conf spark.sql.catalogImplementation=hive \--conf spark.driver.memory=4g \--conf spark.executor.memory=5g \--conf spark.executor.cores=2 \--conf spark.executor.instances=2 \--jars /opt/resou
2026-01-21 11:09:06
359
原创 nilm 电流指纹设备 开源数据集 plaid 介绍/下载
推荐 https://figshare.com/articles/dataset/PLAID_-_A_Voltage_and_Current_Measurement_Dataset_for_Plug_Load_Appliance_Identification_in_Households/10084619。| NL | 非线性负载 | 含整流/开关电源的负载(如电脑、LED、电源适配器),电流畸变、高谐波 || I | 感性负载 | 以电机、电感为主的负载(如空调、冰箱、风扇),无功功率占比较高 |
2026-01-16 17:06:07
185
原创 UK-DALE数据集 下载
记录了英国5个家庭,每个家庭至少几个月的数据,1号家庭有超过4年的数据,另一方面,它同时有低频6s采样的数据和高频16khz的采样数据(高频只有电表的)
2026-01-15 10:43:53
431
原创 pyspark3.5给paimon1.2的表打tag报错 spark_catalog is not a ProcedureCatalog
执行 spark.sql("CALL sys.create_tag(`table` => 'pipeline.bigdata_biz.tb1', tag => 'tag_${last1day_dt}')" )报错:java.lang.RuntimeException: spark_catalog is not a ProcedureCatalog.at org.apache.paimon.spark.catalyst.analysis.PaimonProcedureResolver$CatalogValid
2025-12-04 16:08:31
377
原创 pydantic_ai 自定义model
--- 2. 自定义 Provider,用于调用 internal API ---@property@property@property@property@property# 可选元数据 —— 这个不一定必须,但通常用作 provider 描述self,body = {# 可根据 kwargs 设置 temperature, max_tokens 等# 如果你不需要 stream,可以不实现 request_stream。
2025-11-27 16:57:25
83
原创 lancedb api 获取表名
db.table_names(limit=100 * 365 * 100) # 不超过limit个表名。db.table_names() # 只返回10个表名。// lancedb 连接 获取所有表名。
2025-11-07 15:38:21
128
原创 lanceDB计算向量间余弦相似度 问题
直接手动按照数学公式计算- 余弦相似度公式- L2归一化后计算内积- 向量数据库内置函数计算- 余弦相似度 + 原始向量- 内积 + L2归一化后写入的向量。
2025-11-04 14:05:13
181
原创 lanceDB能否写入不同长度的向量或者null 写入类型
向量列null不会写入,自动跳过 所以需要添加同维度0向量,自己加个标记列 is_valid_vector 来过滤区分。长度必须一致 类型必须是 pyarrow FixedSizeList 类型。
2025-10-29 10:04:37
172
原创 lanceDB 数组过滤
Lance 的过滤表达式是基于 Arrow compute 的,只要 Arrow 支持的函数基本都能用在 filter 里。
2025-10-23 18:03:24
378
原创 lanceDB 自定义embedding函数注册和使用
自定义embedding函数,插入表时,指定某个字段使用该embedding函数.eg: 插入f1 f2 f3三列,指定根据f1通过function1生成vector1那么最终lance表中有4列 f1 f2 f3 vector1.
2025-10-23 17:28:36
259
原创 lance + duckdb 替代 parquet + pandas
【代码】lance + duckdb 替代 parquet + pandas。
2025-10-23 16:28:43
232
原创 lance 向量搜索 pyspark 转向量/lance
列: ['id', 'age', 'weight', 'category', 'embedding']- 普通列: ['id', 'age', 'weight', 'category']✓ 成功保存 Lance 数据集到: example.lance。=== PySpark + Lance 数据集示例 ===- 向量列: embedding (维度: 512)原始向量列类型: list<item: double>步骤2: 保存到 Lance。- 记录数: 1000。- 记录数: 1000。
2025-10-23 15:04:55
129
原创 lance 向量搜索 pandas df 转向量
普通列: ['id', 'age', 'weight', 'category']✓ 成功保存 Lance 数据集到: example.lance。- 向量列: embedding (维度: 512)=== Lance 数据集封装函数示例 ===步骤1: 保存数据到 Lance。- 记录数: 1000。步骤2: 执行向量搜索。
2025-10-23 14:55:21
439
原创 spark pipeline 转换n个字段,如何对某个字段反向转换
eg:f1做onehot f2做labelEncoder f3做归一化. 输入模型推理结果仅仅是f2. 如何对f2做反向转换获取到原始数据.
2025-09-29 14:52:58
442
原创 spark udf array_distinct类似
数组需要去重,但是要求保持原有顺序,即以元素首次出现的位置为准spark 内置函数 array_distinct 官方文档未声明保证顺序,且部分博客说有可能顺序有错.故实现udf,实现有顺序的去重.
2025-09-24 10:44:21
490
原创 sparkml 多列(str array)共享labelEncoder pipeline方案
如上spark数据,要求origin_city dest_city love_citys 中的城市公用一套labelEncoder编码,即三列中同一个城市编码后需要时同一个值.对比之前博客的区别是该版本支持传入数组类型(love_citys)
2025-09-24 10:30:56
434
原创 sparkml 多列共享labelEncoder pipeline方案
比如两列 from城市 to城市我们的需求是两侧同一个城市必须labelEncoder后编码相同.
2025-09-23 17:57:30
420
原创 sparkml 多列共享labelEncoder
1 |北京 |上海 |1 |1 |0 ||2 |上海 |北京 |0 |0 |1 ||3 |广州 |深圳 |1 |2 |3 ||5 |北京 |广州 |1 |1 |2 |
2025-09-23 17:47:12
589
原创 MinMaxScaler Scikit-learn sparkml 稀疏向量
例如,稀疏向量// 稀疏向量有很多种表示方法 这是spark自己的表示方式. 在其他框架中可能有其他表示方式.
2025-09-23 11:07:27
1001
原创 scikit-learn pipeline做数据预处理 模板参考
pipeline制定每个字段预处理逻辑.pipeline对训练数据进行预处理转换pipeline对测试数据即新数据进行预处理转换。
2025-09-15 14:15:31
343
1
原创 macos deepctr_torch虚拟环境配置
背景:conda安装pytorch deepctr-torch存在冲突,无法运行起来.下面是成功的方案,vscode中终端执行即可.
2025-09-09 14:49:54
541
cdh继承tez引擎 cdh添加tez引擎 hive引擎增加
2021-07-07
许多点之间连线最短 python实现
2019-05-02
dist.zip是redashV8.0.0dockr部署过程中npm产生的文件
2021-01-28
presto开启https配置好后无法成功启动
2021-01-15
idea的git插件里面的auto fetch有啥用,有什么存在的必要?能方便我们什么?
2020-12-24
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅