- 博客(269)
- 资源 (8)
- 收藏
- 关注
转载 新版Gensim里Word2Vec的相关用法
好久没用这个包了,新版和旧版有出入,转载的知乎上一篇文章做备忘学习资料使用。最后为了实验一下增量学习部分,我又去下载亲密关系性爱的这一章来做试验。最好参考gensim的官网教学。跟爱情最相关的10个词语。
2024-10-08 17:38:34 65
转载 maven添加本地包依赖的两种方式
system 的依赖方式引入2、通过mvn install 命令将依赖包添加到本地maven仓库1、system
2024-09-09 10:01:35 420
原创 VSCode 远程反复输入密码不能链接问题解决
通过 vscode 远程连接服务器时出现了连接不上,而且一直要循环输入密码的问题,可能是因为上次异常退出导致。主要解决思路是删除当前 vscode 远端服务后,重新建立连接。
2024-07-12 10:04:44 1435
原创 pip freeze 命令
pip freeze是一个用于生成 Python 项目所需依赖包列表的命令。它会列出所有已安装的包及其精确的版本号。这个命令非常有用,它可以帮助开发者确保他们的项目在不同的环境中都能正确运行。pip freeze。
2024-06-24 10:52:59 1288
原创 Visual Studio Code远程linux计算云
5.在 config 文件配置完成并保存后,在VSCode的远程资源管理器中已经出现刚配置的远程服务器,此时点击红框按钮连接即可。3步操作后,Visual Studio Code 会自动弹出提示框,你根据你服务的环境,选择相应项。选择打开文件路径后,点击“OK”,此时开始链接服务器,并提示再次输入密码,之后等待....之后选中SSH下你要打开的服务地址(2步)(这个是上面自己设置的HostName)2.点击远程资源管理器,之后在SSH这行的右侧,点击“+”号,去新建远程。name:你服务器的用户名。
2024-06-14 19:09:15 464
原创 SFTP命令用法(上传和下载 )
其实在SSH软件包中,已经包含了一个叫作SFTP(Secure File Transfer Protocol)的安全文件信息传输子系统,SFTP本身没有单独的守护进程,它必须使用sshd守护进程(端口号默认是22)来完成相应的连接和答复操作,所以从某种意义上来说,SFTP并不像一个服务器程序,而更像是一个客户端程序。但是,由于这种传输方式使用了加密/解密技术,所以传输效率比普通的FTP要低得多,如果您对网络安全性要求更高时,可以使用SFTP代替FTP。//put -r 本地路径/文件夹名 远程路径。
2024-05-21 15:34:38 1675
转载 图解BERT模型:从零开始构建BERT
如下图所示,Attention机制将目标字和上下文各个字的语义向量表示作为输入,首先通过线性变换获得目标字的Query向量表示、上下文各个字的Key向量表示以及目标字与上下文各个字的原始Value表示,然后计算Query向量与各个Key向量的相似度作为权重,加权融合目标字的Value向量和各个上下文字的Value向量,作为Attention的输出,即:目标字的增强语义向量表示。在此基础上,神经网络会将文本中各个字或词的一维词向量作为输入,经过一系列复杂的转换后,输出一个一维词向量作为文本的语义表示。
2024-05-15 15:19:39 521
转载 词嵌入(word embedding)
举个例子,我们可以把“苹果”这个单词映射成一个向量[0.2, 0.9, -0.1, ...],把“香蕉”映射成[0.5, -0.3, 0.8, ...],这样计算机在看到向量[0.2, 0.9, -0.1, ...]时,就能够理解这个单词是“苹果”了。如果我们只是用数字表示,那么计算机只能知道它们是不同的单词,无法确定“猫”和“狗”更接近,还是“鱼”和“跑”更接近,因为他们之间的数值都相差1。这需要专门的模型来处理,比如。我们知道,计算机在处理任何形式的数据时,处理的都是数字,更极端点处理的都是。
2024-05-14 10:21:13 91
转载 pytorch中模型参数requires_grad的含义
当requires_grad = False,则不保留梯度,因此即便在optimizer中注册了参数,也没有梯度可以用来更新参数,因此参数不变。不过不影响梯度继续反向传播,即假设某一层(例如第三层)参数的requires_grad为False或True,前面层(第1或2层)参数的梯度都不变。requires_grad 表达的含义是,这一参数是否保留(或者说持有,即在前向传播完成后,是否在显存中记录这一参数的梯度,而非立即释放)梯度,等待优化器执行optim.step()更新参数。
2024-05-07 18:07:46 414
原创 PostgreSQL中所的锁
为了确保复杂的事务可以安全地同时运行,PostgreSQL提供了各种级别的锁来控制对各种数据对象的并发访问,使得对数据库关键部分的更改序列化。事务并发运行,直到它们尝试获取互相冲突的锁为止(比如两个事务更新同一行时)。当多个事务同时在数据库中运行时,并发控制是一种用于维持一致性和隔离性的技术,在PostgreSQL中,使用快照隔离来实现多版本并发控制,同时以两阶段锁定 (2PL) 机制为辅。在执行DDL时使用2PL,在执行DML时使用SI。
2023-11-21 10:17:42 467
原创 greenplum数据库-锁
在数据库中有两种基本的锁类型:排它锁(Exclusive Locks,即X锁)和共享锁(Share Locks,即S锁)。当数据对象被加上排它锁时,其他的事务不能对它读取和修改。加了共享锁的数据对象可以被其他事务读取,但不能修改。数据库利用这两 种基本的锁类型来对数据库的事务进行并发控制。多个事务同时在数据库中运行时,查看GP库所有表锁。
2023-11-21 10:12:06 711
原创 引入ojdbc6 11.2.0.3版本
IntelliJ IDEA使用Maven导入一些依赖包,在pom.xml中引入ojdbc6 11.2.0.3版本一直失败,下载不了.jar文件解决方法如下:1.下载ojdbc6-11.2.0.3.jar 点击view。
2023-09-19 10:58:21 1217
原创 JAVA this和super
3、this()和super()都只能出现在构造方法的第一行,故this()和super()方法不能共存,当一个类的构造方法第一行中没有this(),也没有super(),系统默认有super()方法;2、this指向当前对象自己,super指向当前对象的父类型特征,故this的东西比super多,也就是super是this的一部分;4、this()是构造方法中调用本类其他的构造方法,super()是当前对象构造方法中去调用自己父类的构造方法。
2023-08-23 10:50:20 141
转载 随机森林-特征选择
随机森林是一种相当简单、容易理解的方法,他的基本原理就是,从原数据集中有放回的采样获得若干个子集,基于每个子集训练出不同的基分类器,再通过基分类器的投票获得最终的分类结果。另外,随机森林还有值得一提的是,随机森林不但对样本进行采样,也会对属性进行采样,即横竖采样,不过对属性的采样不再是自助采样法了,只是简单的按一定比例随机采样。将生成的多棵决策树组成随机森林。要进行特征选择,得现有一个对特征好坏的度量,我们先来看一下,随机森林是如何度量一个特征的好坏的,再来看它如何进行的特征选择。......
2022-08-10 15:49:07 11445
原创 IDEA中git插件使用
1.插件设置2.调出终端3. 从远程Git仓库获取项目源码将远程仓库项目克隆到本地仓库和IDE工作区4.修改部分源码,提交到远程仓库项目上右击,选择Git菜单,执行git add、git commit命令,在弹出界面下拉框中选择相应命令5.从远程仓库获取新的提交6.创建新分支,并在分支上开发7.将分支提交到远程Git仓库8.分支合并到主干9.打tag和删除tag10.更新远程,解决冲突并提交...
2022-05-13 18:14:51 8531 1
转载 task不能序列化
spark出现task不能序列化错误: org.apache.spark.SparkException: Task not serializable 出现“task not serializable"这个错误,一般是因为在map、filter等的参数使用了外部的变量,但是这个变量不能序列化。特别是当引用了某个类(经常是当前类)的成员函数或变量时,会导致这个类的所有成员(整个类)都需要支持序列化。解决这个问题最常用的方法有:如果可以,将依赖的变量放到map、fil...
2022-04-27 15:00:19 183
原创 Maven中scope参数详解
Maven配置中的socpe的默认值是compile。Maven的scope参数:compile,test,runntime,provided,system。
2022-04-21 10:05:23 396
转载 IntelliJ IDEA 常用快捷键
说IDEA对新手来说难,可能其中一个原因就是快捷键组合多而且复杂但是它也很全,基本所有功能都可以通过快捷键来完成,可以这么说,如果你掌握了所有IDEA的快捷键使用,那么你完全可以丢掉鼠标,而且不影响开发效率。一、Ctrl 快捷键Ctrl + F 在当前文件进行文本查找 (必备)Ctrl + R 在当前文件进行文本替换 (必备)Ctrl + Z 撤销 (必备)Ctrl + Y 删除光标所在行 或 删除选中的行 (必备)Ctrl + X 剪切光标所在行 或 剪切选择内容Ctrl ...
2021-12-16 16:41:32 199
原创 AIPL&RFM&AARRR
AIPL模型 人群资产量化的运营模型。Awareness 认知 Interest 兴趣 Purchase 购买 Loyalty 忠诚 GMV(成交总额)=投放用户量*转化量*客单价RFM模型 用户分层模型,衡量用户价值。Recency 最近一次消费时间 Frequency 消费频次,一段时间内的消费次数 Monetary 消费金额,一段时间内的消费金额 AARRR模型 ...
2021-12-14 15:37:30 1704
转载 hive:正则:匹配中文/英文/数字(REGEXP 和 rlike)
目录1:匹配数字数字在0到3位数字固定有6位第二位为数字6的,有且只有两位数第二位为数字6的,但不只有两位数第二位为数字6的,后边再追加1到2位数字手机号|邮箱中含有手机号的邮箱2:匹配中文纯中文(不含有英文和数字的)含有中文的(只要含有汉字都可以)不含有中文3:匹配英文只包含小写英文不含有任何小写英文字符任何包含英文的(大小写都包括)不含有任何英文字符的(大小写都包括)表达式实例介绍数据:Java开发工程师Ja...
2021-12-13 17:28:47 9818
原创 Windows安装Hadoop
1.安装JDK安装jdk配置环境https://blog.csdn.net/qq_36535820/article/details/102831841https://blog.csdn.net/qq_36535820/article/details/1028318412.安装Hadoop2.1下载Hadoop下载Hadoophttps://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/https://mirrors.tuna.tsingh
2021-12-06 18:26:31 1658
原创 IDEA-单行注释与代码对齐
按如下步骤设置:file -> Setting -> Editor ->Code Style -> Java -> Code Generation -> 勾选 Add a space at comment
2021-11-26 17:40:18 830
原创 lambda expressions are not supported at language level ‘5‘
使用IDEA配置JDK1.8版本使用lambda表达式报错:lambda expressions are not supported at language level '5'解决办法:1.在“File -> Settings -> Build, Execution, Deployment -> Compiler”->“Java Compiler”,更改“Project bytecode version”和“Target bytecode version”。...
2021-11-26 16:05:01 395
原创 hiveSql获取日期时间
select from_unixtime(unix_timestamp(),'yyyy-MM-dd') today -- 今天 ,date_add(FROM_UNIXTIME(UNIX_TIMESTAMP()),1) tomorrow --明天 ,date_sub(FROM_UNIXTIME(UNIX_TIMESTAMP()),1) yesterday --昨天 ,trunc(from_unixtime(unix_timestamp(),'yyyy-MM-dd') ,..
2021-11-12 15:10:04 1770
原创 python包的下载网站
python包的下载网站网址1: Unofficial Windows Binaries for Python Extension Packageshttp://www.lfd.uci.edu/~gohlke/pythonlibs/网址2: the Python Package Indexhttps://pypi.python.org/pypi
2021-10-12 17:10:31 2829
转载 xgboost参数-调参
目录一、xgboost 原生接口重要参数训练参数预测函数绘制特征重要性回归例子二、xgboost 的 sklearn 风格接口XGBClassifier基本使用XGBRegressor基本使用三、xgboost 调参思路四、参考文章 xgboost 包含原生接口和 sklearn 风格接口两种,并且二者都实现了分类和回归的功能。如果想了解一些理论性的内容,可以看看之前的文章: XGBoost算法的相关知识一、xgboost 原生接口重要参数...
2021-09-27 14:28:24 22001
原创 数据分析方法概述
方法 说明 对比分析 单一的数据毫无意义,只有经过对比才能体现数据的好坏。常见的对比类型有环比,同比等 细分分析 层层递进,在多个子维度上分析数据,时间维度和渠道的交叉分析 交叉分析 即在多个维度上对比分析数据 漏斗分析 主要用户转化率的分析 比率分析 更偏向属于一种数据展示手段,特别是在数据结论中。可以起到清晰强化对比的作用。 过去/现状/趋势分析 一个时间段的数据要么可以得出对过去和现状的总结,要么就是对未来的趋势分析。接下来都是指导我们
2021-08-31 10:03:51 147
原创 maven项目(IDEA中)-创建|配置|打包
前言在IDEA中创建Maven项目,前提是已经安装配置好Maven环境 。如还未配置安装Maven的,请先下载安装。如何下载安装,可参考文章:maven的安装及介绍本篇教程是以创建基于servlet的JavaWeb项目为例子,如是Spring系列框架,pom.xml文件相关依赖需要调整。1. IDEA中配置Maven1)打开IDEA 创建一个新的project2)起名为web_work3)打开IDEA 选择File --> Settings --> 搜素maven,..
2021-08-19 18:34:58 1595
转载 随机森林调参
在scikit-learn中,RandomForest的分类器是RandomForestClassifier,回归器是RandomForestRegressor,需要调参的参数包括两部分,第一部分是Bagging框架的参数,第二部分是CART决策树的参数。一、Bagging框架的参数:1.n_estimators:也就是弱学习器的最大迭代次数,或者说最大的弱学习器的个数,默认是10。一般来说n_estimators太小,容易欠拟合,n_estimators太大,又容易过拟合,一般选...
2021-08-19 14:30:05 5373
原创 随机森林oob_score及oob判断特征重要性
Sklearn RandomForest算法(有监督学习),可以根据输入数据,选择最佳特征,减少特征冗余;同理,可以通过特征的排列组合,选择最优的组合特征,优化下游算法性能 原理:由于随机决策树生成过程采用的Boostrap,所以在一棵树的生成过程并不会使用所有的样本,未使用的样本就叫(out_of_bag)oob袋外样本。通过袋外样本,可以评估这个树的准确度;此外,其他子树按这个原理评估。最后,取平均值即是随机森林算法的性能。 特征选择...
2021-08-19 14:18:54 7680 3
转载 Maven安装及介绍
前言本篇文章是基于win10系统下载安装Maven的教程。一、 Maven介绍1. 什么是Maven Maven是一个跨平台的项目管理工具。作为Apache组织的一个颇为成功的开源项目,其主要服务于基于Java平台的项目创建,依赖管理和项目信息管理。maven是Apache的顶级项目,解释为“专家,内行”,它是一个项目管理的工具,maven自身是纯java开发的,可以使用maven对java项目进行构建、依赖管理。2. Maven的作用依赖管理依赖指的就是是 我们项目中需...
2021-08-18 15:23:32 429
转载 K折验证交叉验证
K折验证交叉验证 交叉验证既可以解决数据集的数据量不够大问题,也可以解决参数调优的问题。这块主要有三种方式:简单交叉验证(HoldOut检验)、k折交叉验证(k-fold交叉验证)、自助法。该文仅针对k折交叉验证做详解。简单交叉验证方法:将原始数据集随机划分成训练集和验证集两部分。 比如说,将样本按照70%~30%的比例分成两部分,70%的样本用于训练模型;30%的样本用于模型验证。缺点:(1)数据都只被所用了一次,没有被充分利用 (2)在验证...
2021-08-17 18:08:20 47489 3
转载 RandomForestRegressor 参数
sklearn.ensemble.RandomForestRegressor( n_estimators=10, criterion='mse', max_depth=None, min_samples_split=2, ...
2021-08-17 10:43:14 22697 2
原创 分割训练集和测试集(train_test_split)
X_train,X_test, y_train, y_test =sklearn.model_selection.train_test_split(train_data,train_target,test_size=0.4, random_state=0,stratify=y_train)# train_data:所要划分的样本特征集# train_target:所要划分的样本结果# test_size:样本占比,如果是整数的话就是样本的数量# random_state:是随机数的种子。.
2021-08-16 16:36:45 2806
原创 K折交叉验证(KFold)
K折交叉验证:sklearn.model_selection.KFold(n_splits=n, shuffle=False, random_state=None)思路:将训练/测试数据集划分为n个互斥子集,每次用其中一个子集当作验证集,剩下的n-1个作为训练集,进行n次训练和测试,得到n个结果注:对于不能均等份的数据集,其前n_samples % n子集拥有int(n_samples /n)+ 1个样本,其余子集都只有int(n_samples /n)样本参数说明:n_splits:表..
2021-08-16 16:15:25 5935 4
转载 Anaconda降低Python版本
一、Python版本降级原因由于pycharm 解释器报错,然后查询后是3.8版本中的某个包冲突,记录一下,方便以后自己参考。环境:pycharm 2019.1.3anaconda 4.9.2python 3.8二、降级步骤1、Anaconda替换清华镜像清华的镜像确实好用,这里还有其他软件的镜像,配置步骤可以自行查看清华镜像配置大致就是,到当前用户的目录下:(可先执行 conda config --set show_channel_urls yes 生成该文件之后再修改。)一
2021-08-10 15:58:41 18786 2
转载 r2_score使用方法
R2通俗地理解为使用均值作为误差基准,看预测误差是否大于或者小于均值基准误差。R2_score = 1,样本中预测值和真实值完全相等,没有任何误差,表示回归分析中自变量对因变量的解释越好。R2_score = 0。此时分子等于分母,样本的每项预测值都等于均值。根据公式,我们可以写出R2_score实现代码1- mean_squared_error(y_test,y_preditc)/ np.var(y_test)也可以直接调用sklearn.metrics中的r2_scor...
2021-07-23 15:53:56 13769
转载 回归模型的性能的评价指标
评价指标主要有:RMSE(平方根误差)、MAE(平均绝对误差)、MSE(平均平方误差)、R2_score。但是当量纲不同时,RMSE、MAE、MSE难以衡量模型效果好坏。这就需要用到R2_score。
2021-07-23 15:45:33 2317
python_Levenshtein_wheels-0.13.1-cp36-cp36m-win_amd64.whl
2020-04-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人