bitcarmanlee-CSDN博客

原创一文搞懂各种Attention机制

在自注意力机制中，每个元素（例如，句子中的一个词或者序列中的一个项）的表示是由序列内部的其他元素通过注意力权重来加权平均得到的。self-attention，指的是通过Scaled Dot-Product Attention的计算方式，计算注意力分数，最终对向量实现加权求和操作，得到输入序列中的每个位置加权向量表示。根据上面的公式，可以得到注意力分数。Self在自注意力中强调的是模型在处理序列时，每个元素的上下文表示是由序列内部的元素共同决定的，而不是依赖于外部的元素或者序列。即对应论文中上面这个公式。

2024-11-01 16:04:33 1205

转载 Transformer Attention公式中Q,K,V理解

我们知道，矩阵可以看作由一些向量组成，一个矩阵乘以它自己转置的运算，其实可以看成这些向量分别与其他向量计算内积。这是在计算第一个行向量与自己的内积，第一行乘以第二列是计算第一个行向量与第二个行向量的内积第一行乘以第三列是计算第一个行向量与第三个行向量的内积…我们回想前文提到的向量的内积表征两个向量的夹角，表征一个向量在另一个向量上的投影。是一个方阵，我们以行向量的角度理解，里面保存了每个向量与自己和其他向量进行内积运算的结果。答：表征两个向量的夹角，表征一个向量在另一个向量上的投影。至此，我们理解了公式。

2024-09-23 08:41:09 765

原创 Jupyter管理内核命令

在虚拟环境中安装ipykernel包。然后安装ipykernel包。

2024-09-09 11:33:34 474

原创一些常见的文件操作

这里，-F参数告诉grep使用固定字符串进行匹配，-x参数表示匹配整个行，-f参数表示从文件中获取模式列表，wc -l将输出两个文件共有的行数.需要注意的是，uniq的去重功能是针对连续多条，然后只剩唯一一条，所以要先排序再用uniq去重。这种方法潜在的问题是处理大量数据时效率可能会较低。

2024-08-21 16:52:07 281

原创 macos解压rar文件

比如我的机器是M1芯片，下载rarmacos-arm-701.tar.gz。将rarmacos-arm-701.tar.gz文件解压，并cd到解压后的目录地址。第一步，需要下载对应的rar文件解压工具。cd到需要解压文件的目录中，并执行以下命令。

2024-05-24 10:44:56 1408

原创各种距离相似度量及计算

各类算法中，距离是一个经常使用的量，经常会与各种相似性计算联系在一起。下面我们来总结一下各种距离与相似的计算。

2024-05-15 11:53:20 828

原创 python初始化二维数据

通过debug，发现result[0][0]-result[0][2]的范围，输出都正确，从result[1][0]开始输出结果有问题，于是大概就猜测到了问题在哪，应该是result初始化的时候出现了问题。将a[0][0]的值修改为1以后，a[1][0], a[2][0]的值也变为了1。上面这种初始化方式，对a[0][0]值进行修改的时候，a[1][0], a[2][0]的值未发生改变。很明显，对a[0][0]进行修改以后，a[1][0], a[2][0]的值也发生了改变。

2024-03-21 20:25:04 994

原创 chatglm-6B模型下载

从huggingface上面下载chatglm-6B模型是比较简捷的方式，下面记录一下下载安装过程。

2023-11-20 15:56:52 1710

原创 wordcloud在mac上显示中文乱码

经过查阅资料发现，wordcloud默认不支持中文，需要指定font参数才能正常显示中文。在mac上使用wordcloud显示词云的时候，发现图片中的中文显示乱码。生成的词云图片即可正常显示中文。

2023-11-14 19:03:17 1229 1

原创在python3.8安装tensorflow 1.14.0

想安装tf 1.14.0的版本，终端直接报错。具体来说，需要什么版本就输入什么版本。

2023-10-12 15:50:04 1927 2

转载 conda常用命令总结

conda create -n env_name package_name #创建名为env_name的新环境，并在该环境下安装名为package_name 的包，可以指定新环境的版本号，例如：conda create -n python2 python=python2.7 numpy pandas，创建了python2环境，python版本为2.7，同时还安装了numpy pandas包。conda install --name env_name package_name #在指定环境中安装包。

2023-09-20 10:15:20 406

原创 anaconda:Env creation from python 3.7 not working M1 Apple Silicon Mac

发现对于Apple Silicon，python没有低于3.7以下的版本。因此直接换成3.8的版本…在anaconda上执行如下命令，想创建python3.7的环境。具体可以参考github说明。

2023-09-19 16:05:29 572

原创 iceberg对比hive优势

在传统的实时数仓中，由于列式存储相对行式存储有较高的查询性能，我们一般采用parquet，orc等列存储数据格式。传统的流式数据入库的过程中对小文件进行合并会产生很多问题，比如流式数据不断的往hive表进行写入，如果同时有一个合并程序进行小文件的合并，那么这时候对同一份数据进行读写。当有实时指标计算的需求时，可以使用 flink 实时计算框架，来构建近实时数仓，而且iceberg 存储全量数据，且仍然有批计算能力，可以在流式计算作业运行的同时，跑一个批作业来进行数据回溯或者数据纠正。

2023-08-02 19:12:16 4246

转载 iceberg总结简介

Iceberg 会在插入数据的时候根据分区策略跟踪新数据的分区信息，并将其记录在元数据中；当修改 Iceberg 表中的分区规则时，修改之前的数据还是按照以前的分区方式存储，而修改之后的数据才会按照新的规则存储，修改前后的分区元数据是分开存储的，这就意味着在同一个表中允许存在多种分区策略。最上层中记录了 Iceberg 表当前元数据的版本，对应的是version-hint.text文件，version-hint.text文件中只记录了一个数字表示当前的元数据版本，初始为 1，后续表每变更一次就加 1。

2023-08-02 16:02:02 2064

原创判断是否是数字，字母，中文字符

其中，4e00-9fa5表示汉字的unicode编码范围。关于unicode编码与utf-8, utf-16的关系，可以查阅参考文献1。JDK中自带有isDigit/isLetter方法，可以判断字符是否是数字/字母。0-9对应的ascii码为48-57，A-Z:65-90，a-z:97-122。从JDK1.7开始，还可以使用UnicodeScript来判断是否为中文字符。要判断一个字符是否为中文字符，可以使用正则匹配的方式。正则匹配也是我们进行字符串处理常用的方法。可以利用ascii码值来进行判断。

2023-07-05 11:40:47 1181

原创百度AI开放平台 OCR调用与 open api qps result limit reached error code 18

上面的错误提示显示是qps调用超出了上限，但是很明显，我们就一个java代码，应该不存在说qps太大超过上限的问题。先在开放平台注册完毕，并创建一个应用，得到AppID, API Key, Secret Key等参数。最近项目中要使用到OCR功能，发现百度AI开放平台这部分能力比较强，于是注册账号并调用相关API。经过搜索发现，是我们在创建应用的时候，还需要主动去领取免费的额度！如上图，有个领取免费资源的按钮，点击该按钮领取即可。等上述准备工作就绪，开始测试OCR相关的功能模块。

2023-06-29 19:57:24 1092

原创 pandas dataframe获取所有行名称与列名称

df.index为RangeIndex类型，df.index.values属性会输出一个numpy.ndarray类型的数组，将这个数组转化为list，就可以得到所有行名称的list。第二种方式: df.columns返回的是Index类型，然后将该Index转成list即可。pandas中，dataframe获取行名称，可以有如下两种方式。更多时候，我们是要想获得dataframe的列名，有如下三种方式。第三种方式:直接使用list(df)，就返回列名的list。

2023-06-19 16:49:54 6295 1

原创 pandas 按行聚合按列聚合分组添加汇总行

1.先根据name做groupby操作，需要注意的点在于，将groupby函数中的as_index参数设为False，这样name将不会作为结果中的行索引。对于某个数据，我们经常需要各种聚合操作，比如针对行/列求和，求均值等。3.对所得结果按name排序，这样得到的结果方便查看，汇总行数据在相同key数组分组的最下面一行。上面代码实现的功能是，将数据按name分组，然后对s1,s2进行聚合做求和操作。2.对于df，将s1，s2, merge分别按列求和，并且该行索引值为总和。

2023-06-16 17:49:46 2779 1

原创 pandas链式操作与SettingWithCopyWarning详解

因为subdf变量是作为 Get 操作的输出创建的，它可能是原始 DataFrame 的副本，也可能不是，除非检查，否则我们不能确认。要了解 SettingWithCopyWarning，首先要知道，Pandas 中的某些操作会返回数据的视图（View），某些操作会返回数据的副本（Copy）。警告提醒我们，代码可能并没有符合需求，修改到的可能并不是我们想要修改的那个数据集。如上所示，左侧的视图 df2 只是原始数据 df1 一个子集，而右侧的副本创建了一个新的对象 df2。这样就达到了我们预期的目的。

2023-06-14 16:42:59 937

原创风控模型指标PSI详细理解

因为在金融领域，稳定是个特别重要的要求，模型/特征的更新频率，比起搜广推这种业务场景来也慢很多很多。举个很实际的例子，大部分做贷款业务的互金公司，包括传统的银行，在20年用户都发生了重大变化，大家的逾期率普遍都提升了很多，原因大家也都清楚，就是因为疫情的黑天鹅事件。典型情况下，P表示数据的真实分布，Q表示数据的理论分布、估计的模型分布、或P的近似分布。所以拆开一下，很容易看出来，PSI其实是将A(actual)与E(expected)的KL散度做了一个对称化操作，将两个KL散度进行了相加。

2023-06-07 11:26:04 3535 1

原创 lookalike模型综述

首先我们需要知道，lookalike不是某一种特定算法，而是某一类算法或者策略的总称。具体来说，在某个实际业务场景中，我们可能会先根据某些规则或者业务经验，选出一些好用户，即所谓的种子用户。这些用户往往精度很高，能精确贴合我们业务场景，但是一般人数较少。这个时候，我们就需要通过lookalike算法，根据种子用户，对人群来进行扩充，来满足实际业务需求。举个实际例子，广告主在进行广告投放的时候，可能事先会给定1w个种子用户，这些种子用户对广告的响应与转化都很高。

2023-06-02 16:02:21 1486 1

原创 pandas pivot pivot_table groupby crosstab用法与区别详解

pivot_table可以重塑数据，重塑数据的好处是使得数据更加的直观和容易分析，俗称数据透视，经常使用excel的同学对透视表就不陌生了。pivot_table与pivot区别在于，pivot仅仅是对数据进行重塑，无法对数据进行聚合。同时，pivot方法中，指定的index与columns构成的数据里面如果存在重复的情况，代码将会报错。前面提到的pivot可以对数组进行分组聚合，其实我们平时日常对数据进行分组聚合使用最多的是groupby。可以看到，输出与pivot_table是完全一样的。

2023-05-24 18:21:09 1604

原创风控模型指标KS值详解与代码实现

K-s曲线的数据来源和本质是与ROC曲线是一致的，只不过ROC曲线是将真正类率和假正类率作为横纵轴，K-s曲线则是把真正率和假正率都当作是纵轴，横轴为选定的阈值。crosstab是计算分组频率的特殊透视表，我们先试用crosstab计算分组频率，然后通过cumsum方法，即可求得在各个阈值的累积频率然后完成ks值的计算。关于ks_2samp方法，可以多说几句，其输出了两个值，一个是statistic，就是我们想求的ks值，还有一个pvalue。以python为例，实现ks值的计算。

2023-05-22 20:59:30 7242

原创 java数组Arrays/ArrayUtils工具类常见操作

commons-lang包 org.apache.commons.lang.ArrayUtils类，有许多针对数组的操作，下面我们挑一些常用的方法示例。注意此时不能使用基本类型int, long, double这种，需要转换成相应的包装类。传入一个Comparator接口的实现类REVERSE_ORDER，即可实现逆序排列。注意sort方法是对数组原地排序，并不会返回一个新数组，返回类型为void。jdk中自带的Arrays工具类可以实现对数组排序功能。如果要逆序排，可以按如下操作。

2023-05-16 19:56:12 848 1

原创归并排序java实现

归并排序是分治思想(divide-and-conquer)的经典运用。分治是先将现有问题分(divide)成一些小问题去递归求解，然后再将所有分的问题进行治理(conquer)合并得到最终结果。1.归并排序利用了完全二叉树的性质，最好最坏与平均时间复杂度均为O(nlogn)。下图来自参考文献1，该图就很清晰描述了归并排序的全过程。2.归并排序是一种稳定排序算法。

2023-05-16 17:55:30 953

原创堆排序与取topK java实现

将待排序序列构造成一个大顶堆，此时，整个序列的最大值就是堆顶的根节点。堆是具有以下性质的完全二叉树：每个结点的值都大于或等于其左右孩子结点的值，称为大顶堆；或者每个结点的值都小于或等于其左右孩子结点的值，称为小顶堆。最近趁着有点时间，稍微复习了一下数据结构相关内容，温习了一下堆排序，做一下记录。关键的步骤以及作用，都已经在代码中进行了注释，再结合参考文献1就可以容易理解。求一个无序序列的topK，是个经典问题。更具体的过程与图示，见参考文献1，不再重新画图。上面的代码，分别找到最大的三个数与最小的三个数。

2023-05-16 16:58:55 645

原创 copilot平替tabnine解析

GitHub Copilot是GitHub和OpenAI合作开发的一个人工智能工具，用户在使用Visual Studio Code、Microsoft Visual Studio、Vim、Cursor或JetBrains集成开发环境时可以通过GitHub Copilot自动补全代码。很简单，因为现在copilot已经收费了，而且价格不算太便宜。简单来说，copilot是一个帮你写代码的利器，根据openai开发的gpt系列算法(目前已经接入gpt4)，对代码进行自动补全，能大大提高开发人员的开发效率。

2023-05-04 17:29:18 8762 3

转载 find命令用法小结

不管我决心如何组织文件，似乎总有无法找到文件的时候。有时是因为我不记得最初的文件名，其他时候，我知道名字，但我不记得在哪里保存它了。甚至有时我需要一个我最初就没有创建的文件。但是，无论遇到什么困难，我知道在 POSIX 系统上，总是有 find 命令可以帮助我。find 命令由 POSIX 规范定义，它创建了一个用于衡量 POSIX 系统的开放标准，这包括 Linux、BSD 和 macOS。简而言之，只要你运行的是 Linux、BSD 或 macOS，那么 find 已经安装了。

2023-04-23 19:17:27 1282 1

原创 intellij 从2020升级到2023 踩坑实录

但是查了好久，也木有发现OdpsStudio相关的插件呀，相当郁闷，也不知道为什么intellij启动跟aliyun有什么关系。首先下载新版本，这个没什么好说的，直接去jetbrain官网，根据自己的操作系统下载对应的intellij版本，我的机器是ubuntu，下载对应的linux .tar.gz然后解压就好。于是把原有的文件删掉，重新再点击create desktop entry选项，然后发现应用程序里的快捷方式图标，更新了。但是重点来了，发现每次点快捷方式，启动的还是原来2020老版本的IDE!

2023-04-21 18:06:56 7328 2

原创 sql group by 1, 2

作为算法工程师，天天跟数据打交道是避免不了的，sql也是日常工具。某天运营的同学丢给我一个sql，发现sql语句里面有group by 1,2 这种写法。作为一个老鸟，之前确实没见过大家用group by 1,2这种用法，都是group by 字段1，字段2这种写法，比较清晰。因此特意去查了一下sql的相关语法，group by 1,2这种写法是没有问题的，group by / order by 后面跟数字，表示select 后面选择的字段，1 代表第一个字段，2代表第二个字段，以此类推。

2023-03-27 11:31:21 2209 2

原创 spark创建空dataframe

源码中已经很明确告诉我们，emptyDataFrame创建了一个不含任何行列且schema为空的dataframe。项目中会需要用到创建空的dataframe。spark提供了emptyDataFrame方法，可以直接创建。错误信息也很直观，emptydf是0 columns，df是2 columns，所以无法直接union。为了解决上面的问题，我们需要在生成emptyDataFrame的时候指定schema。这个空的dataframe在实际中用途有限，比如如下场景。上面的方法运行时候直接抛出错误信息。

2023-03-23 14:11:33 983 2

原创 c++,java,python,scala,shell三目运算总结

注意scala与python中if else表达式的不同在于，本质上是利用了scala中的自动推断语法，scala中任何表达式都是有值的，if else表达式的值是每个分支最后一行代码的结果。实际工作场景中经常会有各种语言一起混编的情况，混编的时候经常会大脑短路把各种语法混淆，或者某种语言有一段时间没编写忘了的情况，比如三目运算。python语法里面是没有标准三目运算符的，可以使用if else语法来模拟三目运算很方便。:这种语法，看下面的例子。c++ 与 java的语法中，都存在有标注的三目运算符。

2023-03-16 11:25:48 512

原创 macos休眠以后自动关机如何解决

最近将macos休眠以后，发现每次再打开机器都会自动重启，显然是某个设置不符合预期。查找了一下相关设置，记录如下。6.将在60分钟不活跃后退出登录前面的勾选项去掉即可。4.点击下方的"点击锁按钮以进行更改"。1.打开系统偏好设置。2.点开安全性与隐私。3.选择通用选项卡。

2023-03-14 18:14:30 8448 1

原创 RDD, DataFrame,DataSet区别与相互转化

它提供了特定领域内专用的 API 来处理你的分布式数据，并让更多的人可以更方便地使用 Spark，而不仅限于专业的数据工程师。从根本上来说，一个 RDD 就是你的数据的一个不可变的分布式元素集合，在集群中跨节点分布，可以通过若干提供了转换和处理的底层 API 进行并行处理。3.如果你想在编译时就有高度的类型安全，想要有类型的 JVM 对象，用上 Catalyst 优化，并得益于 Tungsten 生成的高效代码，那就使用 Dataset；1.你希望可以对你的数据集进行最基本的转换、处理和控制；

2023-02-06 12:10:56 1438

原创 vim退出后内容依旧留在屏幕的解决办法

vim编辑文件，输入:q退出以后，文件的内容依然显示在屏幕上，很烦人，而且有隐私数据泄露风险。然后source上面~/.bashrc配置文件使其生效即可。编辑~/.bashrc配置文件，在文件最后添加一行配置。

2023-02-02 18:07:28 1441 1

原创 scala伴生对象与case class用法

之前用过scala中的伴生对象，隔一段时间不用又有点忘记掉了。特此记录，方便后续查找。

2023-01-19 17:04:36 685 1

原创 scala中的字符串插值

从2.10版本开始，scala支持字符串插值。所谓的字符串插值，即允许开发人员将变量引用直接插入处理过的字面字符中，且提供了三种插值方式:s,f,raw。在字符串前面加上f，类似于实现了C语言中的printf功能，可以对字符串进行初步的格式化。raw插值的这种方式，当我们想输出\n,\t等特殊字符又不对其进行转义的时候，就特别好用。raw插值器与s插值器用法类似，不同的是它不在字符串中进行任何字面转义。在任何字符串前加上s，就可以在字符串中直接使用变量进行替换。同时，这种方式还支持处理表达式。

2023-01-17 17:57:07 775 1

原创生成2023年节假日/工作日维表

项目中有一张维表，维护的是历史节假日工作日的信息，估计在很多场合都有类似的需求。到了新年，需要生成新一年的数据，下面看看如何在维表中插入新一年的数据。

2023-01-17 16:57:24 1697 4

原创 pandas将Series转成DataFrame

具体的值为group，上面的逻辑是将相同department的group值进行聚合。我们想将其转成一个dataframe，可以使用字典的方式，直接创建一个新的dataframe。与一维数组不同的是，除了数组数据以外，他还有一组与数组数据对应的标签索引。上面的代码也将Series转换成了一个dataframe，与前面稍微有所区别的在于，对group还进行了去重排序操作。上面的代码中，data进行groupby操作以后取group列，得到的就是一个Series结构。

2023-01-12 17:25:56 4020

原创 pandas transform小结

transform可以调用一个函数，在每个组上生成一个相似的索引数据帧，并返回一个数据帧，该数据帧的索引与原始对象的索引相同，并填充转换后的值。核心是在每个组上生成一个相似的索引数据帧，这个就奠定了transform的强大之处，后面很多使用场合中我们都可以慢慢来体会。可以看出来，transform保留了与原来数据相同的索引。2.最后返回的结果，带上了原始对象的索引，可以很方便的与原始数据进行拼接返回。很明显上面的结果，与原数据行数不一致，索引也无法对齐，得到的结果都是NaN。很明显不是我们想要的结果。

2023-01-11 17:46:40 549

空空如也

空空如也