自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

yy的博客

大数据

  • 博客(1216)
  • 资源 (22)
  • 问答 (2)
  • 收藏
  • 关注

原创 chrome开启CDP的方法

测试端口: curl http://127.0.0.1:9222/json/version。

2026-03-09 18:11:09 82

原创 开车驾驶 坐姿调节记录

肩膀必须贴着椅背 然后伸直手臂:手腕能刚好搭在方向盘顶部。头枕应该 对准后脑中部 而不是脖子,否则追尾容易颈椎甩伤。椅背通常不要超过:100–110°。应该: 拉近到你,而不是你凑过去。眼睛距离车顶大概 8–10cm。理想状态:手肘弯曲约 120°。目标: 膝关节 ≈ 120°。坐好后:把刹车踏板踩到底。第一步:先调座椅前后(最关键)第四步:调方向盘(很多人忽略)第五步:调头枕(安全关键)第六步:检查最终状态。

2026-03-03 10:10:44 331

原创 spark3.4新特性 LCA 横向列名引用

f1 + 2 AS f2 会报错f1不存在;spark 3.4之后不会,目的是简化sql写法;和原始字段同名,优先用原始字段;window agg 中都支持。where条件中不能用。

2026-03-02 10:35:51 52

原创 codex app 运行脚本如何显示脚本输出的内容

codex

2026-02-05 10:47:18 33

原创 jupyterhub on k8s jupyter总是无响应

pod hub-59b8588b84-28lxx 或者 proxy-7f87544d4c-gpjb5 oom重启导致断连,增加cpu和内存配置即可.pod jupyter-${用户名} 稳定。

2026-01-22 11:00:30 426

原创 spark view永久保存 + paimon对应的view

spark 3.2paimon 1.2sudo -i spark-sql \--master local[*] \--conf spark.sql.catalogImplementation=hive \--conf spark.driver.memory=4g \--conf spark.executor.memory=5g \--conf spark.executor.cores=2 \--conf spark.executor.instances=2 \--jars /opt/resou

2026-01-21 11:09:06 359

原创 第六届(2018)泰迪杯 NILM 电流指纹识别 符合检测

gpt结果:

2026-01-16 17:58:35 193

原创 nilm 电流指纹设备 开源数据集 plaid 介绍/下载

推荐 https://figshare.com/articles/dataset/PLAID_-_A_Voltage_and_Current_Measurement_Dataset_for_Plug_Load_Appliance_Identification_in_Households/10084619。| NL | 非线性负载 | 含整流/开关电源的负载(如电脑、LED、电源适配器),电流畸变、高谐波 || I | 感性负载 | 以电机、电感为主的负载(如空调、冰箱、风扇),无功功率占比较高 |

2026-01-16 17:06:07 185

原创 UK-DALE数据集 下载

记录了英国5个家庭,每个家庭至少几个月的数据,1号家庭有超过4年的数据,另一方面,它同时有低频6s采样的数据和高频16khz的采样数据(高频只有电表的)

2026-01-15 10:43:53 431

原创 pydantic_ai 意图识别

【代码】pydantic_ai 意图识别。

2025-12-18 17:11:26 218

原创 pydantic AI Graph 打印流程图

mermaid语法.

2025-12-11 16:48:48 388

原创 pyspark3.5给paimon1.2的表打tag报错 spark_catalog is not a ProcedureCatalog

执行 spark.sql("CALL sys.create_tag(`table` => 'pipeline.bigdata_biz.tb1', tag => 'tag_${last1day_dt}')" )报错:java.lang.RuntimeException: spark_catalog is not a ProcedureCatalog.at org.apache.paimon.spark.catalyst.analysis.PaimonProcedureResolver$CatalogValid

2025-12-04 16:08:31 377

原创 pydantic_ai 自定义model

--- 2. 自定义 Provider,用于调用 internal API ---@property@property@property@property@property# 可选元数据 —— 这个不一定必须,但通常用作 provider 描述self,body = {# 可根据 kwargs 设置 temperature, max_tokens 等# 如果你不需要 stream,可以不实现 request_stream。

2025-11-27 16:57:25 83

原创 pydantic_ai Agent 商品推荐系统

商品数据量建议1000左右,太多建议分层缩小范围后再喂给大模型。

2025-11-27 15:53:56 88

原创 pydantic AI 工具和依赖注入案例 logfire案例

【代码】pydantic AI 工具和依赖注入案例。

2025-11-27 14:07:49 315

原创 agentscope使用deepseek

下面两个案例 分别是通义千问和deepseek。注意formatter需要对应上。

2025-11-26 15:18:45 170

原创 autogen使用deepseek

增加配置 model_info即可使用deepseek。

2025-11-26 14:30:46 530

原创 lancedb create_scalar_index 创建索引

【代码】lancedb create_scalar_index 创建索引。

2025-11-13 18:02:45 470

原创 lancedb api 获取表名

db.table_names(limit=100 * 365 * 100) # 不超过limit个表名。db.table_names() # 只返回10个表名。// lancedb 连接 获取所有表名。

2025-11-07 15:38:21 128

原创 spark df 写入lanceDB

/ spark.sql.catalog.lance.root是本地路径或者你对象存储的文件夹路径。

2025-11-06 18:44:34 312 1

原创 lanceDB计算向量间余弦相似度 问题

直接手动按照数学公式计算- 余弦相似度公式- L2归一化后计算内积- 向量数据库内置函数计算- 余弦相似度 + 原始向量- 内积 + L2归一化后写入的向量。

2025-11-04 14:05:13 181

原创 lanceDB能否写入不同长度的向量或者null 写入类型

向量列null不会写入,自动跳过 所以需要添加同维度0向量,自己加个标记列 is_valid_vector 来过滤区分。长度必须一致 类型必须是 pyarrow FixedSizeList 类型。

2025-10-29 10:04:37 172

原创 lanceDB 数组过滤

Lance 的过滤表达式是基于 Arrow compute 的,只要 Arrow 支持的函数基本都能用在 filter 里。

2025-10-23 18:03:24 378

原创 lanceDB 自定义embedding函数注册和使用

自定义embedding函数,插入表时,指定某个字段使用该embedding函数.eg: 插入f1 f2 f3三列,指定根据f1通过function1生成vector1那么最终lance表中有4列 f1 f2 f3 vector1.

2025-10-23 17:28:36 259

原创 lance + duckdb 替代 parquet + pandas

【代码】lance + duckdb 替代 parquet + pandas。

2025-10-23 16:28:43 232

原创 lance 标量列 索引

【代码】lance 标量列 索引。

2025-10-23 16:26:26 303

原创 lance 向量搜索 pyspark 转向量/lance

列: ['id', 'age', 'weight', 'category', 'embedding']- 普通列: ['id', 'age', 'weight', 'category']✓ 成功保存 Lance 数据集到: example.lance。=== PySpark + Lance 数据集示例 ===- 向量列: embedding (维度: 512)原始向量列类型: list<item: double>步骤2: 保存到 Lance。- 记录数: 1000。- 记录数: 1000。

2025-10-23 15:04:55 129

原创 lance 向量搜索 pandas df 转向量

普通列: ['id', 'age', 'weight', 'category']✓ 成功保存 Lance 数据集到: example.lance。- 向量列: embedding (维度: 512)=== Lance 数据集封装函数示例 ===步骤1: 保存数据到 Lance。- 记录数: 1000。步骤2: 执行向量搜索。

2025-10-23 14:55:21 439

原创 lance向量数据库 向量搜索案例

【代码】lance向量数据库 向量搜索案例。

2025-10-23 14:41:27 303

原创 apache paimon 维表join lookup join,内存加速,bucket优化

两个特性都是paimon 1.2.0开始支持的。

2025-10-14 10:12:40 411

原创 apache paimon ddl 字段默认值

`````paimon 旧版本的默认值实现存在一些缺陷,所以1.2.0版本重新实现。

2025-10-14 10:08:33 277

原创 spark pipeline 转换n个字段,如何对某个字段反向转换

eg:f1做onehot f2做labelEncoder f3做归一化. 输入模型推理结果仅仅是f2. 如何对f2做反向转换获取到原始数据.

2025-09-29 14:52:58 442

原创 spark udf array_distinct类似

数组需要去重,但是要求保持原有顺序,即以元素首次出现的位置为准spark 内置函数 array_distinct 官方文档未声明保证顺序,且部分博客说有可能顺序有错.故实现udf,实现有顺序的去重.

2025-09-24 10:44:21 490

原创 sparkml 多列(str array)共享labelEncoder pipeline方案

如上spark数据,要求origin_city dest_city love_citys 中的城市公用一套labelEncoder编码,即三列中同一个城市编码后需要时同一个值.对比之前博客的区别是该版本支持传入数组类型(love_citys)

2025-09-24 10:30:56 434

原创 sparkml 多列共享labelEncoder pipeline方案

比如两列 from城市 to城市我们的需求是两侧同一个城市必须labelEncoder后编码相同.

2025-09-23 17:57:30 420

原创 sparkml 多列共享labelEncoder

1 |北京 |上海 |1 |1 |0 ||2 |上海 |北京 |0 |0 |1 ||3 |广州 |深圳 |1 |2 |3 ||5 |北京 |广州 |1 |1 |2 |

2025-09-23 17:47:12 589

原创 sparkml pipeline 使用案例

== 完整预处理Pipeline ===

2025-09-23 14:25:15 951

原创 MinMaxScaler Scikit-learn sparkml 稀疏向量

例如,稀疏向量// 稀疏向量有很多种表示方法 这是spark自己的表示方式. 在其他框架中可能有其他表示方式.

2025-09-23 11:07:27 1001

原创 scikit-learn pipeline做数据预处理 模板参考

pipeline制定每个字段预处理逻辑.pipeline对训练数据进行预处理转换pipeline对测试数据即新数据进行预处理转换。

2025-09-15 14:15:31 343 1

原创 macos deepctr_torch虚拟环境配置

背景:conda安装pytorch deepctr-torch存在冲突,无法运行起来.下面是成功的方案,vscode中终端执行即可.

2025-09-09 14:49:54 541

matlab绘图方法.docx

matlab绘图方法.docx

2021-11-01

cdh继承tez引擎 cdh添加tez引擎 hive引擎增加

包括pom修改的每个截图和配置,该文档从有道云笔记到处略加修改,其中pom内容格式需要你手动调整一下. 富含 大量截图帮助定位和配置. 含hive on tez 常见报错的解决方法. tez比spark更省心. spark容易出现内存问题.

2021-07-07

Redash中文版V9安装部署1.28.pdf

Redash开源中文版V9.0.0安装部署培训教程

2021-01-28

hive-udf-处理JSON数组

hive_udf_处理JSON数组

2023-05-19

arm架构cpu oracle jdk8

arm架构cpu oracle jdk8

2022-12-04

CloudCompareStereo_v2.12.alpha_setup_x64.exe

CloudCompare win安装包 2.12

2021-03-26

trino354不同内存参数比例性能对比.xlsx

描述trino的内存参数比例对查询速度的影响

2021-04-12

scala-intellij-bin-2021.3.8.zip

idea scala插件

2021-11-07

Xshell Plus.zip

xshell 带快速命令按钮 自用. 我是公司不让登录网盘,只能靠csdn...

2021-10-29

有道云笔记Beta版-1.2.6.exe

有道云笔记Beta版-1.2.6.exe

2021-10-29

dbeaver-ee-21.2.0-win32.win32.x86_64.zip

dbeaver-ee-21.2.0-win32.win32.x86_64.zip

2021-10-29

zulu11.52.13-ca-jdk11.0.13-win_x64.zip zulu版本

jdk11 zulu版本

2021-10-29

zulu17.30.15-ca-jdk17.0.1-win_x64.zip

jdk17 zulu版本

2021-10-29

jdk8-oracle.zip

jdk8 oracle官方

2021-10-29

jdk-11.0.12_windows-x64_bin-oracle.zip

jdk11 oracle官网

2021-10-29

trino-363-server+client+jdbc.zip

trino363版本 server client 和 jdbc包

2021-10-29

许多点之间连线最短 python实现

https://blog.csdn.net/qq_35515661/article/details/86499957 许多点之间连线最短 python实现 网友给的公选课题目

2019-05-02

redash-Version8.0.0-包含npm编译好的页面文件.zip

redash-Version8.0.0-包含npm编译好的页面文件

2021-01-29

天宝MN18(4800h)新版bios解决wsl蓝屏问题(2021年4月的bios)

天宝MN18(4800h)新版bios解决wsl蓝屏问题(2021年4月的bios)

2021-04-19

dist.zip是redashV8.0.0dockr部署过程中npm产生的文件

redash v8.0.0的npm产生的文件夹 https://github.com/getredash/redash 使用方法:下载dist.zip 然后放到redish/client/下 然后运行 unzip dist.zip 然后cd .. 然后就ok了) 直接下载解压就行 否则需要npm去build

2021-01-28

excel 时间戳 日期时间 互转

excel 时间戳 日期时间 互转

2021-01-17

dbeaver.zip

企业版 7.3.0版本; 直接放到c盘根目录 解压到当前目录即可使用 解压后路径eg: C:\dbeaver\drivers\...

2021-02-18

laydate.js

实现日期范文选择和纵向选择 即 选择每个月的周五等等 全局变量mydateold 就是当前选择的时间列表 使用官网的作为独立组件使用的方法

2019-09-29

groupTable.js

在实现了单列合并的基础上实现了多列合并,并且右侧对应左侧的分组关系保留,并且不会改变分组内排序(所以需要后台把分组内数据提前排序)

2020-06-19

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除