星辰境末-CSDN博客

原创 langchain相关报错记录

在使用langchain的LLMBashChain时，出现PydanticUserError: `LLMBashChain` is not fully defined;you should define `BaseCache`, then call `LLMBashChain.model_rebuild()`.将pydantic版本降到2.9.2即可。

2024-12-17 17:35:30 1029 2

原创 Transformers相关报错记录

将transformers版本降为4.37.2解决。第2,3两个异常将peft版本降为0.4.0解决。

2024-09-13 17:42:49 516

原创基于Transformer实现中英翻译任务的微调

本文旨在说明如何通过Transfoemers库和pytorch来微调一个中英翻译模型。这里选择开源的opus-mt-zh-en模型来实现微调，提升该模型在特定语料上的性能。入门小白，如果有误还请指导。

2024-07-27 17:50:57 2414 2

DorisSink是通过StreamLoad向Doris写入数据，DataStream写入时，支持不同的序列化方法。setLabelPrefix：Stream load导入使用的label前缀。2pc场景下要求全局唯一，用来保证Flink的EOS语义。特殊字符作为分隔符：'sink.properties.escape_delimiters' = 'true'自定义字符串列分隔符：sink.properties.column_separator' = ', '如果是JSON格式导入需要加2个配置项。

2024-01-26 11:06:24 2007 1

原创 java解析json字符串总结

这样我们会发现解析出来的结果只保留了非null值对应的key，但有时候可能我们需要将值为null对应的key也保留下来，这时候就可以通过指定SerializerFeature来实现。假如存在一个字符串jsonstr="{"id":1,"name":null,"age":null,"sex":"男"}"，需要将其解析为Json对象。当一个JSON对象字段的值为空时，可以显示这个字段原来的键和值。当一个List字段为null时，可以将其输出为空数组。当一个JSON字符串值为空时，可以将其写成空字符串。

2024-01-23 10:29:04 509 1

原创 DriverManager.getConnection()中出现NoClassDefFoundError异常

Maven中MySQL8连接器中存在com.google.protobuf:protobuf-java:jar:3.6.1包，导致冲突了，可以降低mysql-connector-java的版本。2.6.1及以下版本的protobuf 的源码，里面存在LiteralByteString这个类。3.6.x的protobuf 的源码，里面并没有LiteralByteString这个类。降低protobuf版本。

2024-01-22 09:59:56 680

原创 Flink CDC 实时同步MySQL数据到Kafka

flink cdc底层就是通过监控mysql的binlog日志，实时捕获到一个表或多个表的变更；所以必须开启mysql的binlog日志。mysql配置文件默认位于/etc/目录下，直接用过以下命令开启。如果cdc版本用了2.4.0出现异常的可以退回2.3.0。

2024-01-19 09:35:00 3321 2

原创 JDK9或者以上版本出现Unable to make field private final byte[] java.lang.String.value accessible异常

这个问题是由于Java 9中的模块化导致的。为了提高Java的安全性，Java 9引入了模块系统，该系统可以控制不同模块之间的访问权限。模块系统将 Java 分成了若干个可以独立部署和运行的模块，使得 Java 应用可以更快地启动并更好地利用硬件资源。②编辑 VM options(如果没有使用快捷键alt+v)

2024-01-18 09:51:29 3400 2

原创数仓快速生成建表语句

information_schema 是 MySQL 自带的数据库，其中含有多张表（本质是视图），主要用于存储元数据（数据库中的数据库名，表明，列名这些）SCHEMATA表存储了当前 MySQL 实例中所有数据库的信息TABLES表存储数据库中的表信息（包括视图），包括表属于哪个数据库，表的类型、存储引擎、创建时间等信息COLUMNS表存储表中的列信息，包括表有多少列、每个列的类型等。

2023-12-28 20:50:38 485 1

原创跨天数据拆分为多条（每天一条）

假如某个id对应的开始时间和结束时间存在跨天情况，而我们需要计算每一天的活跃id，可能会存在需要将跨天日期进行拆分（一条数据拆分为多条），如下图：可以看出id为1的这条数据不存在跨天，就不需要进行拆分；id为2的这条数据跨了一天，就需要拆分为id为3的这条数据也需要拆分为4条（跨天越多拆分得越多）...... 可以怎么实现呢？

2023-12-25 17:52:38 835

原创蚁群算法（ACO）

蚁群算法（python实现）

2022-06-12 21:36:08 7450

原创 Spark基础

目录什么是Spark？Spark和Hadoop什么关系Spark的优点spark适合做什么？Spark的核心模块Spark的系统架构什么是Spark？Apache Spark是一种多语言引擎，用于单节点机器或集群上执行数据工程，数据科学和机器学习。简单来说：spark是一种大数据计算框架，是一种基于内存快速处理计算大数据的引擎。支持多种语言的API接口，可以单节点和集群部署，其又提供了用于数据分析，机器学习的库。Spark和Hadoop什么关系Hadoop只.

2022-01-24 20:12:09 2930 2

原创 spark-shell命令读取HDFS文件时文件不存在

先执行jps检查hadoop集群有没有正常启动检查HDFS路径是否正确或文件夹的读写权限。注意：hdfs路径类似hdfs://localhost:9000/license.txt，千万不能直接写成/user/root/路径，否则就是读取本地路径（需要绝对路径）如果集群在虚拟机里，就要用相应的ip地址...

2022-01-17 20:06:00 3187