*Snowgrass*-CSDN博客

转载 Maven 环境配置

Maven 是一个基于 Java 的工具，所以要做的第一件事情就是安装 JDK。如果你还未安装 JDK，可以参考我们的。

2025-02-21 16:37:16 46

原创 IDEA查看项目依赖包及其版本

在IntelliJ IDEA中，将现有项目转换为Maven项目是一个常见的需求，可以通过几种不同的方法来实现。Maven是一个强大的构建工具，它可以帮助自动化项目的构建过程，管理依赖关系，以及其他许多方面。

2025-02-08 11:37:16 825

转载新版Gensim里Word2Vec的相关用法

好久没用这个包了，新版和旧版有出入，转载的知乎上一篇文章做备忘学习资料使用。最后为了实验一下增量学习部分，我又去下载亲密关系性爱的这一章来做试验。最好参考gensim的官网教学。跟爱情最相关的10个词语。

2024-10-08 17:38:34 249

转载 maven添加本地包依赖的两种方式

system 的依赖方式引入2、通过mvn install 命令将依赖包添加到本地maven仓库1、system

2024-09-09 10:01:35 972

原创 VSCode 远程反复输入密码不能链接问题解决

通过 vscode 远程连接服务器时出现了连接不上，而且一直要循环输入密码的问题，可能是因为上次异常退出导致。主要解决思路是删除当前 vscode 远端服务后，重新建立连接。

2024-07-12 10:04:44 2105 1

原创 pip freeze 命令

pip freeze是一个用于生成 Python 项目所需依赖包列表的命令。它会列出所有已安装的包及其精确的版本号。这个命令非常有用，它可以帮助开发者确保他们的项目在不同的环境中都能正确运行。pip freeze。

2024-06-24 10:52:59 1997

原创 Visual Studio Code远程linux计算云

5.在 config 文件配置完成并保存后，在VSCode的远程资源管理器中已经出现刚配置的远程服务器，此时点击红框按钮连接即可。3步操作后，Visual Studio Code 会自动弹出提示框，你根据你服务的环境，选择相应项。选择打开文件路径后，点击“OK”，此时开始链接服务器，并提示再次输入密码，之后等待....之后选中SSH下你要打开的服务地址（2步）（这个是上面自己设置的HostName）2.点击远程资源管理器，之后在SSH这行的右侧，点击“+”号，去新建远程。name：你服务器的用户名。

2024-06-14 19:09:15 545

原创 SFTP命令用法（上传和下载）

其实在SSH软件包中，已经包含了一个叫作SFTP(Secure File Transfer Protocol)的安全文件信息传输子系统，SFTP本身没有单独的守护进程，它必须使用sshd守护进程（端口号默认是22）来完成相应的连接和答复操作，所以从某种意义上来说，SFTP并不像一个服务器程序，而更像是一个客户端程序。但是，由于这种传输方式使用了加密/解密技术，所以传输效率比普通的FTP要低得多，如果您对网络安全性要求更高时，可以使用SFTP代替FTP。//put -r 本地路径/文件夹名远程路径。

2024-05-21 15:34:38 2619

转载图解BERT模型：从零开始构建BERT

如下图所示，Attention机制将目标字和上下文各个字的语义向量表示作为输入，首先通过线性变换获得目标字的Query向量表示、上下文各个字的Key向量表示以及目标字与上下文各个字的原始Value表示，然后计算Query向量与各个Key向量的相似度作为权重，加权融合目标字的Value向量和各个上下文字的Value向量，作为Attention的输出，即：目标字的增强语义向量表示。在此基础上，神经网络会将文本中各个字或词的一维词向量作为输入，经过一系列复杂的转换后，输出一个一维词向量作为文本的语义表示。

2024-05-15 15:19:39 713

转载词嵌入(word embedding)

举个例子，我们可以把“苹果”这个单词映射成一个向量[0.2, 0.9, -0.1, ...]，把“香蕉”映射成[0.5, -0.3, 0.8, ...]，这样计算机在看到向量[0.2, 0.9, -0.1, ...]时，就能够理解这个单词是“苹果”了。如果我们只是用数字表示，那么计算机只能知道它们是不同的单词，无法确定“猫”和“狗”更接近，还是“鱼”和“跑”更接近，因为他们之间的数值都相差1。这需要专门的模型来处理，比如。我们知道，计算机在处理任何形式的数据时，处理的都是数字，更极端点处理的都是。

2024-05-14 10:21:13 143

转载 pytorch中模型参数requires_grad的含义

当requires_grad = False，则不保留梯度，因此即便在optimizer中注册了参数，也没有梯度可以用来更新参数，因此参数不变。不过不影响梯度继续反向传播，即假设某一层（例如第三层）参数的requires_grad为False或True，前面层（第1或2层）参数的梯度都不变。requires_grad 表达的含义是，这一参数是否保留（或者说持有，即在前向传播完成后，是否在显存中记录这一参数的梯度，而非立即释放）梯度，等待优化器执行optim.step()更新参数。

2024-05-07 18:07:46 564

原创 PostgreSQL中所的锁

为了确保复杂的事务可以安全地同时运行，PostgreSQL提供了各种级别的锁来控制对各种数据对象的并发访问，使得对数据库关键部分的更改序列化。事务并发运行，直到它们尝试获取互相冲突的锁为止(比如两个事务更新同一行时)。当多个事务同时在数据库中运行时，并发控制是一种用于维持一致性和隔离性的技术，在PostgreSQL中，使用快照隔离来实现多版本并发控制，同时以两阶段锁定 (2PL) 机制为辅。在执行DDL时使用2PL，在执行DML时使用SI。

2023-11-21 10:17:42 600

原创 greenplum数据库-锁

在数据库中有两种基本的锁类型：排它锁（Exclusive Locks，即X锁）和共享锁（Share Locks，即S锁）。当数据对象被加上排它锁时，其他的事务不能对它读取和修改。加了共享锁的数据对象可以被其他事务读取，但不能修改。数据库利用这两种基本的锁类型来对数据库的事务进行并发控制。多个事务同时在数据库中运行时，查看GP库所有表锁。

2023-11-21 10:12:06 835

原创引入ojdbc6 11.2.0.3版本

IntelliJ IDEA使用Maven导入一些依赖包，在pom.xml中引入ojdbc6 11.2.0.3版本一直失败，下载不了.jar文件解决方法如下：1.下载ojdbc6-11.2.0.3.jar 点击view。

2023-09-19 10:58:21 1527

原创 JAVA this和super

3、this()和super()都只能出现在构造方法的第一行，故this()和super()方法不能共存，当一个类的构造方法第一行中没有this()，也没有super()，系统默认有super()方法；2、this指向当前对象自己，super指向当前对象的父类型特征，故this的东西比super多，也就是super是this的一部分；4、this()是构造方法中调用本类其他的构造方法，super()是当前对象构造方法中去调用自己父类的构造方法。

2023-08-23 10:50:20 158

转载随机森林-特征选择

随机森林是一种相当简单、容易理解的方法，他的基本原理就是，从原数据集中有放回的采样获得若干个子集，基于每个子集训练出不同的基分类器，再通过基分类器的投票获得最终的分类结果。另外，随机森林还有值得一提的是，随机森林不但对样本进行采样，也会对属性进行采样，即横竖采样，不过对属性的采样不再是自助采样法了，只是简单的按一定比例随机采样。将生成的多棵决策树组成随机森林。要进行特征选择，得现有一个对特征好坏的度量，我们先来看一下，随机森林是如何度量一个特征的好坏的，再来看它如何进行的特征选择。......

2022-08-10 15:49:07 12244

转载 Python 对数函数

python 基础知识

2022-07-05 14:38:10 8965

原创 IDEA中git插件使用

1.插件设置2.调出终端3. 从远程Git仓库获取项目源码将远程仓库项目克隆到本地仓库和IDE工作区4.修改部分源码，提交到远程仓库项目上右击，选择Git菜单，执行git add、git commit命令，在弹出界面下拉框中选择相应命令5.从远程仓库获取新的提交6.创建新分支，并在分支上开发7.将分支提交到远程Git仓库8.分支合并到主干9.打tag和删除tag10.更新远程，解决冲突并提交...

2022-05-13 18:14:51 8721 1

转载 task不能序列化

spark出现task不能序列化错误： org.apache.spark.SparkException: Task not serializable 出现“task not serializable"这个错误，一般是因为在map、filter等的参数使用了外部的变量，但是这个变量不能序列化。特别是当引用了某个类（经常是当前类）的成员函数或变量时，会导致这个类的所有成员（整个类）都需要支持序列化。解决这个问题最常用的方法有：如果可以，将依赖的变量放到map、fil...

2022-04-27 15:00:19 215

原创 Maven中scope参数详解

Maven配置中的socpe的默认值是compile。Maven的scope参数：compile，test，runntime，provided，system。

2022-04-21 10:05:23 457

转载 IntelliJ IDEA 常用快捷键

说IDEA对新手来说难，可能其中一个原因就是快捷键组合多而且复杂但是它也很全，基本所有功能都可以通过快捷键来完成，可以这么说，如果你掌握了所有IDEA的快捷键使用，那么你完全可以丢掉鼠标，而且不影响开发效率。一、Ctrl 快捷键Ctrl + F 在当前文件进行文本查找（必备）Ctrl + R 在当前文件进行文本替换（必备）Ctrl + Z 撤销（必备）Ctrl + Y 删除光标所在行或删除选中的行（必备）Ctrl + X 剪切光标所在行或剪切选择内容Ctrl ...

2021-12-16 16:41:32 240

原创 AIPL&RFM&AARRR

AIPL模型人群资产量化的运营模型。Awareness 认知 Interest 兴趣 Purchase 购买 Loyalty 忠诚 GMV(成交总额)=投放用户量*转化量*客单价RFM模型用户分层模型，衡量用户价值。Recency 最近一次消费时间 Frequency 消费频次，一段时间内的消费次数 Monetary 消费金额，一段时间内的消费金额 AARRR模型 ...

2021-12-14 15:37:30 1826

转载 hive：正则：匹配中文/英文/数字（REGEXP 和 rlike）

目录1：匹配数字数字在0到3位数字固定有6位第二位为数字6的，有且只有两位数第二位为数字6的，但不只有两位数第二位为数字6的，后边再追加1到2位数字手机号|邮箱中含有手机号的邮箱2：匹配中文纯中文（不含有英文和数字的）含有中文的（只要含有汉字都可以）不含有中文3：匹配英文只包含小写英文不含有任何小写英文字符任何包含英文的（大小写都包括）不含有任何英文字符的（大小写都包括）表达式实例介绍数据：Java开发工程师Ja...

2021-12-13 17:28:47 10432

原创 Windows安装Hadoop

1.安装JDK安装jdk配置环境https://blog.csdn.net/qq_36535820/article/details/102831841https://blog.csdn.net/qq_36535820/article/details/1028318412.安装Hadoop2.1下载Hadoop下载Hadoophttps://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/https://mirrors.tuna.tsingh

2021-12-06 18:26:31 1821

原创 IDEA-单行注释与代码对齐

按如下步骤设置：file -> Setting -> Editor ->Code Style -> Java -> Code Generation -> 勾选 Add a space at comment

2021-11-26 17:40:18 892

原创 lambda expressions are not supported at language level ‘5‘

使用IDEA配置JDK1.8版本使用lambda表达式报错：lambda expressions are not supported at language level '5'解决办法：1.在“File -> Settings -> Build, Execution, Deployment -> Compiler”->“Java Compiler”，更改“Project bytecode version”和“Target bytecode version”。...

2021-11-26 16:05:01 453

原创 hiveSql获取日期时间

select from_unixtime(unix_timestamp(),'yyyy-MM-dd') today -- 今天 ,date_add(FROM_UNIXTIME(UNIX_TIMESTAMP()),1) tomorrow --明天 ,date_sub(FROM_UNIXTIME(UNIX_TIMESTAMP()),1) yesterday --昨天 ,trunc(from_unixtime(unix_timestamp(),'yyyy-MM-dd') ,..

2021-11-12 15:10:04 1843

原创 IDEA-创建Scala项目

1.创建Scala项目2.设置相应信息

2021-10-19 11:38:02 335 1

原创 python包的下载网站

python包的下载网站网址1: Unofficial Windows Binaries for Python Extension Packageshttp://www.lfd.uci.edu/~gohlke/pythonlibs/网址2： the Python Package Indexhttps://pypi.python.org/pypi

2021-10-12 17:10:31 3190

转载 xgboost参数-调参

目录一、xgboost 原生接口重要参数训练参数预测函数绘制特征重要性回归例子二、xgboost 的 sklearn 风格接口XGBClassifier基本使用XGBRegressor基本使用三、xgboost 调参思路四、参考文章 xgboost 包含原生接口和 sklearn 风格接口两种，并且二者都实现了分类和回归的功能。如果想了解一些理论性的内容，可以看看之前的文章： XGBoost算法的相关知识一、xgboost 原生接口重要参数...

2021-09-27 14:28:24 22673

原创数据分析方法概述

方法说明对比分析单一的数据毫无意义，只有经过对比才能体现数据的好坏。常见的对比类型有环比，同比等细分分析层层递进，在多个子维度上分析数据，时间维度和渠道的交叉分析交叉分析即在多个维度上对比分析数据漏斗分析主要用户转化率的分析比率分析更偏向属于一种数据展示手段，特别是在数据结论中。可以起到清晰强化对比的作用。过去/现状/趋势分析一个时间段的数据要么可以得出对过去和现状的总结，要么就是对未来的趋势分析。接下来都是指导我们

2021-08-31 10:03:51 163

原创 maven项目(IDEA中)-创建|配置|打包

前言在IDEA中创建Maven项目，前提是已经安装配置好Maven环境。如还未配置安装Maven的，请先下载安装。如何下载安装，可参考文章：maven的安装及介绍本篇教程是以创建基于servlet的JavaWeb项目为例子，如是Spring系列框架，pom.xml文件相关依赖需要调整。1. IDEA中配置Maven1）打开IDEA 创建一个新的project2）起名为web_work3）打开IDEA 选择File --> Settings --> 搜素maven,..

2021-08-19 18:34:58 1674

转载随机森林调参

在scikit-learn中，RandomForest的分类器是RandomForestClassifier，回归器是RandomForestRegressor，需要调参的参数包括两部分，第一部分是Bagging框架的参数，第二部分是CART决策树的参数。一、Bagging框架的参数：1.n_estimators:也就是弱学习器的最大迭代次数，或者说最大的弱学习器的个数，默认是10。一般来说n_estimators太小，容易欠拟合，n_estimators太大，又容易过拟合，一般选...

2021-08-19 14:30:05 5528

原创随机森林oob_score及oob判断特征重要性

Sklearn RandomForest算法（有监督学习），可以根据输入数据，选择最佳特征，减少特征冗余；同理，可以通过特征的排列组合，选择最优的组合特征，优化下游算法性能原理：由于随机决策树生成过程采用的Boostrap，所以在一棵树的生成过程并不会使用所有的样本，未使用的样本就叫（out_of_bag）oob袋外样本。通过袋外样本，可以评估这个树的准确度；此外，其他子树按这个原理评估。最后，取平均值即是随机森林算法的性能。特征选择...

2021-08-19 14:18:54 8030 3

转载 Maven安装及介绍

前言本篇文章是基于win10系统下载安装Maven的教程。一、 Maven介绍1. 什么是Maven Maven是一个跨平台的项目管理工具。作为Apache组织的一个颇为成功的开源项目，其主要服务于基于Java平台的项目创建，依赖管理和项目信息管理。maven是Apache的顶级项目，解释为“专家，内行”，它是一个项目管理的工具，maven自身是纯java开发的，可以使用maven对java项目进行构建、依赖管理。2. Maven的作用依赖管理依赖指的就是是我们项目中需...

2021-08-18 15:23:32 463

转载 K折验证交叉验证

K折验证交叉验证交叉验证既可以解决数据集的数据量不够大问题，也可以解决参数调优的问题。这块主要有三种方式：简单交叉验证（HoldOut检验）、k折交叉验证（k-fold交叉验证）、自助法。该文仅针对k折交叉验证做详解。简单交叉验证方法：将原始数据集随机划分成训练集和验证集两部分。比如说，将样本按照70%~30%的比例分成两部分，70%的样本用于训练模型；30%的样本用于模型验证。缺点：（1）数据都只被所用了一次，没有被充分利用（2）在验证...

2021-08-17 18:08:20 48402 3

转载 RandomForestRegressor 参数

sklearn.ensemble.RandomForestRegressor( n_estimators=10, criterion='mse', max_depth=None, min_samples_split=2, ...

2021-08-17 10:43:14 24487 2

原创分割训练集和测试集(train_test_split)

X_train,X_test, y_train, y_test =sklearn.model_selection.train_test_split(train_data,train_target,test_size=0.4, random_state=0,stratify=y_train)# train_data：所要划分的样本特征集# train_target：所要划分的样本结果# test_size：样本占比，如果是整数的话就是样本的数量# random_state：是随机数的种子。.

2021-08-16 16:36:45 2874

原创 K折交叉验证(KFold)

K折交叉验证：sklearn.model_selection.KFold(n_splits=n, shuffle=False, random_state=None)思路：将训练/测试数据集划分为n个互斥子集，每次用其中一个子集当作验证集，剩下的n-1个作为训练集，进行n次训练和测试，得到n个结果注：对于不能均等份的数据集，其前n_samples % n子集拥有int(n_samples /n)+ 1个样本，其余子集都只有int(n_samples /n)样本参数说明：n_splits：表..

2021-08-16 16:15:25 6041 4