- 博客(67)
- 收藏
- 关注
原创 业务培训心得
首页右上角,点击快捷栏向下按钮->管理我的快捷栏->在左侧全部功能-通用&股票栏目种找到这几个模块拖到右边->置顶,上移。产品:大型金融工程和财经数据仓库,涵盖股票,基金,债券,外汇,保险,期货,金融衍生品,现货交易,宏观经济等。业绩比较标准,基金成立之初给自己设定的目标,及表现及格的收益率;客户:证券公司,基金管理公司,保险公司,银行,投资公司等。进入RPP,搜索徐彪,筛选日期大于一年,页数大于20页。代表基金持有了哪些股票,行业,债券等,以及权重是怎样的。价值观:要正,要爱,要严,要美。
2024-07-03 21:16:35 947
原创 大模型 | Tokeninzer自定义
它的划分粒度介于词与字符之间,比如可以将”looking”划分为”look”和”ing”两个子词,而划分出来的"look",”ing”又能够用来构造其它词,如"look"和"ed"子词可组成单词"looked",因而Subword方法能够大大降低词典的大小,同时对相近词能更好地处理。
2024-05-30 10:19:23 1148
原创 大模型 | NEFTune之引入随机噪声对大模型训练的收益
注意,原先传入model的是input_ids,而当下由于我们将inputs_embeds增加了噪声,因此传入model的将直接替换为inputs_embeds,代码如下。进度:直接对模型进行如下封装,原理是对model.embed_tokens.forward()进行改写,经实践,这种方法不管用,会报堆栈溢出的error。在AlpacaEval榜单上,利用GPT4作为评分器,在多个数据上微调Llama2-7B模型,NEFTune方法相较于直接微调方法,均有显著提高。
2023-10-26 15:22:19 900
原创 2021机器学习阶段性复盘
文章目录一、GBDT和Xgboost简介一、GBDT和Xgboost简介GBDT,一种梯度提升树的算法,属于Boosting模型,本质为损失函数的泰勒一阶展开。Xgboost为损失函数的泰勒二阶展开。在函数空间而言,泰勒一阶展开,可以看出,损失函数的每一次优化,到最终都转化为每次迭代增量(即残差)的累加和Σtft(x)\Sigma_{t}f_t(x)Σtft(x),而累加和正是每次损失函数优化过程中与上一次损失函数结果存在的差距,即上一次优化中训练错的样本累积而成。因此,Boostin
2023-07-12 20:52:54 876
原创 auc的计算方法
这样,2.5+5 = 7.5(说明一共有7.5个样本对,正样本打分高于其他样本),然后7.5中还包括正正样本对,大小为M(M+1)/2, 则所有正样本中,正样本大于负样本打分的样本对有7.5-2(2+1)/2=4.5。在给出的例子中,包含有2个正样本(A, B)和3个负样本(C, D, E),因此一共有6个(2*3)正负样本对,即公式中分母为6。在上面的例子中出现了正样本A与负样本D得分相等的情况,这时候A排序值由相同得分的排序值算平均值,即(2+3)/2=2.5。
2023-07-12 20:45:43 594
原创 融合ELO机制的销售能力评估方案
举例而言,本轮5名玩家参赛,本轮结束后,根据比赛结果排位,每个对应位置的玩家实际胜负值为[0.4, 0.3, 0.2, 0.1, 0],使用本方法,则认为第一名赢第二名的程度,与第二名赢第三名的程度时一致且公平的。场1v1的胜负,那么导致的结果是,本轮第一名赢了其余所有选手,他本轮的净胜分会迎来爆炸级增长,同样的,本轮最后一名选手输给了其余所有选手,他的净胜分会迎来剧烈下跌(甚至负分)。问题5:没有考虑胜负程度,例如转化率3.5%的销售胜出转化率3.4%的销售,与3.5%胜出1.5%的奖惩是一样的。
2023-07-12 20:45:24 822
原创 深度学习 | BN层原理浅谈
相反的,全连接和卷积层的输出一般是一个对称的,非稀疏的一个分布,更加类似于高斯分布,对他们进行归一化会产生更加稳定的分布。例如Relu激活函数,如果输入的数据是一个高斯分布,经过Relu输出的数据小于0的被抑制,就不是高斯分布了。对于深度学习这种包含很多隐层的网络结构,各隐层学到的权重等参数都在不停的变化,导致隐层的输入分布老是变来变去,产生了所谓的“BN每个batch采样的数据都不一样,但是每次的batch的数据都会被局部均值和方差作用,可以认为是引入了噪声,增强了过拟合能力。(2)加速网络收敛速度,
2023-03-01 17:17:09 1180 1
原创 深度学习 | Attention与Transformer
Attention,又称为注意力机制,顾名思义,是一种能让模型对重要信息重点关注并充分学习吸收的技术,它不算是一个完整的模型,应当是一种技术,能够作用于任何序列模型中。
2022-08-17 14:34:57 1078
原创 特征工程 | 信息价值IV与群体稳定性PSI
特征工程 | 信息价值IV与群体稳定性PSI关键词:特征筛选,信息量,稳定性文章目录特征工程 | 信息价值IV与群体稳定性PSI前言一、信息价值IV1.1 使用条件1.2 评价基准1.3 计算原理a. WOE计算b. IV计算二、群体稳定性PSI2.1 使用条件2.2 评价基准2.2 计算原理三、总结四、代码附录前言 基于IV与PSI的筛选方法主要应用于“金融风控”场景,该场景下,稳定性压倒一切,一套模型正式上线后往往很久才迭代一次。因此对于特征工
2022-03-27 21:15:47 1614
原创 Python | datetime与time模块
datetimedatetime对象转字符串datetime指时间类的格式,是一种类似结构体的形式,如datetime(2022,2,11,16,15,20)dt = datetime.now().replace(microsecond=0)dt.strftime(’%Y-%m-%d %H:%M:%S’)字符串转datetime对象例如,有一字符串,value=‘2022/02/11’datetime.strptime(value, ‘%Y/%m/%d’)...
2022-02-14 17:41:43 434
原创 深度学习 | 自然语言处理之RNN/LSTM
循环神经网络RNN提示:本文默认读者具备基本的深度学习知识,如加权激活,链式求导,权重矩阵等信息。文章目录循环神经网络RNN前言一、循环神经网络结构前言 RNN非常适合"具备序列特性的特征",因此能够挖掘特征中的时序信息和语义信息。利用了RNN的这种能力,使深度学习模型在解决语音识别、语言模型、机器翻译以及时序分析等NLP领域的问题时有所突破。序列特性,即符合时间顺序,逻辑顺序,或者其他顺序就叫序列特性,举几个例子:拿人类的某句话来说,也就是
2022-02-13 14:36:57 1505
原创 一知半解的极大似然估计
极大似然估计,很多人会解释为已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值! 这句话乍一看有些抽象,不妨解释为:已知某一模型输出的样本结果,其模型参数未知,通过一种方法反推最有可能使模型输出该结果的参数值。这种方法,即“极大似然估计”换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”,这不正是机器学习的常态吗?我们得到了样本结果,通过训练
2021-12-24 23:36:10 489
原创 VSCode远程ssh免密设置
Windows环境下cd ~/.ssh/ssh-keygen -t ecdsa会生成id_ecdsa/id_ecdsa.pub两个文件,后者是公钥Linux服务器环境下在服务端,某个账户比如/home/user/下,建立.ssh,touch authorized_keys,然后将id_ecdsa.pub的内容复制到authorized_keys文件中,然后就可以直接ssh -p PORT user@ip 免密登录...
2021-12-06 10:04:15 266
原创 JSON踩坑
json.dumps()会将dict缺失值也dump进去,但读出来的时候缺失值会默认为float类型,会导致常规判断缺失值的方式失效。因此,在dumps的过程中,要注意判断缺失值https://www.itranslater.com/qa/details/2582574229292057600...
2021-12-02 10:26:54 188
原创 特征异常值处理
数值型特征为了避免异常值, 数值型特征的归一化特殊处理最大值取95%分位数max_v = df.col1.quantile(0.95)最小值取5%分位数min_v = df.col1.quantile(0.05)计算补偿gapgap = (max95 - min5) / 10最终取值max_v = max_v + gapmin_v = min_v - gap if min_v !=0 else 0...
2021-10-14 11:41:24 475
原创 Pytorch建模笔记
Pytorch建模笔记文章目录Pytorch建模笔记一、继承式建模1.1 构建数据集1.2 网络搭建1.3 损失函数及优化器API对比一、继承式建模1.1 构建数据集 Pytorch的数据集需要手工将ndarray或dataframe转化为一种pytorch通用的数据集形式。首先需要将ndarray数据转为tensorx_train = torch.tensor(x_train.astype(np.float32))y_train = torc
2021-08-17 15:15:31 514
转载 神经网络反向求导不可导情况处理
1.激活函数不可导深度学习算法通常需要进行反向求导,来更新模型的参数,这就要求激活函数满足处处可导的性质,例如传统的sigmoid函数等。但是,为了解决梯度消失等问题提出的relu系列函数却不满足处处可导性质。针对这种类型的激活函数,可以使用次梯度来解决。次梯度方法(subgradient method)是传统的梯度下降方法的拓展,用来处理不可导的凸函数。它的优势是比传统方法处理问题范围大,劣势是算法收敛速度慢。但是,由于它对不可导函数有很好的处理方法,所以学习它还是很有必要的。对于rel
2021-08-04 13:52:40 1652
原创 魔兽世界 | 宏命令教程
前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、什么是宏命令有了宏命令,可以很大程度的解放双手,开启懒人脸滚键盘模式,本篇文章就简单讲解一下基本宏指令,并尝试完成一套一件输出宏二、基本宏速查表#showtooltip多用于宏命令的开头,让按钮显示技能的说明和技能的图标/cast xxx施放技能,如/
2021-07-23 16:34:13 47768
原创 机器学习 | 基于内容的Word2Vec实现
Word2Vec实现文章目录Word2Vec实现一、Word2Vec是什么二、主流实现方式1.gensim2.jiaba总结一、Word2Vec是什么二、主流实现方式1.gensim代码如下(示例):import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport warningswarnings.filterwarnings('ignore')impor
2021-07-12 22:51:36 815
原创 大数据 | Pyspark基本操作
系列文章目录Apache Spark是新兴的一种快速通用的大规模数据处理引擎。它的优势有三个方面:通用计算引擎 能够运行MapReduce、数据挖掘、图运算、流式计算、SQL等多种框架;基于内存 数据可缓存在内存中,特别适用于需要迭代多次运算的场景;与Hadoop集成 能够直接读写HDFS中的数据,并能运行在YARN之上。Spark是用Scala语言编写的,所提供的API也很好地利用了这门语言的特性,当然作为数据科学的一环,它也可以使用Java和Python编写应用。这里我们将用Python给大
2021-06-17 21:36:59 912 4
原创 机器学习 | 机器学习之巅SVM系列(二)
机器学习 | 机器学习之巅SVM系列(二)本文记录了SVM的数学模型文章目录机器学习 | 机器学习之巅SVM系列(二)一、支持向量机二、函数间隔与几何间隔1.引入库2.读入数据总结一、支持向量机 对于二分类问题,解决思路即找到合适的超平面,能够将数据划分在超平面两侧以便实现分类。对于线性分类器而言,如逻辑回归,我们能够找到类似wTx+b=0w^Tx+b=0wTx+b=0的超平面,既可以是左图中的蓝实线,也可以是蓝虚线,这取决于回归后的结果。&nbs
2021-06-15 14:35:02 178
原创 机器学习 | 奇异值分解SVD与实现
前言特征分解——>奇异值分解(SVD)——>隐语义模型(LFM),三个算法在前者的基础上推导而成,按顺序先后出现。三者均用于矩阵降维。其中:SVD奇异值分解为矩阵分解的一种方法,可用于推荐系统中,将评分矩阵补全、降维。奇异值分解(SVD) 将目标矩阵A,转化为三个矩阵相乘,如下: 其中,A为目标矩阵,表示user对item的打分;P为左奇异矩阵,mm维,为User矩阵;Q为右奇异矩阵,nn维
2021-05-29 19:36:24 3174
原创 机器学习 | 决策树之回归树
系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录前言一、回归树的构建方法二、递归二分法总结前言决策树不仅可以进行分类,也可以进行回归。与线性回归不同,回归树是将空间进行划分,每个空间对应一个标签。一、回归树的构建方法当面对一个回归问题时,特征向量为:X=[x1x2x3x4...xj]X =\begin{bmatri
2021-05-24 22:02:25 7307 6
原创 机器学习 | 机器学习之巅SVM系列(一)
系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例
2021-05-19 22:40:58 418
转载 用人话讲解tf.split
API原型(TensorFlow 1.8.0):tf.split(value,num_or_size_splits,axis=0,num=None,name=‘split’)这个函数是用来切割张量的。输入切割的张量和参数,返回切割的结果。value传入的就是需要切割的张量。这个函数有两种切割的方式:以三个维度的张量为例,比如说一个20 * 30 * 40的张量my_tensor,就如同一个长20厘米宽30厘米高40厘米的蛋糕,每立方厘米都是一个分量。有两种切割方式:如果num
2021-05-10 21:10:51 181
原创 深度学习 | Tensorflow2.0函数式建模笔记
深度学习 | Tensorflow2.0函数式建模Tensorflow2.0主要支持3种建模方式,分别为tf.keras.models.Sequential(), 适合比较简单的网络,前一层输出是后一层输入。class mymodel(tf.keras.models.Model), 继承Model父类的方法,通过super(), call()等方法实现子类的方法。函数式API,自定义Input_layer,output_layer,适合比较复杂的网络搭建,比如Wide&Deep, xDee
2021-05-09 12:15:27 706
原创 机器学习 | Xgboost代码框架
Xgboost提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录Xgboost模型格式DMatrix数据格式DataFrame数据格式参数设置模型格式Xgboost对于输入数据的分类,可分为两类:DMatrixDataFrameDMatrix数据格式DMatrix数据主要由以下数据源转化:libsvm转化csv文件读取为Data
2021-05-04 20:42:38 1298
原创 深度学习 | Tensorflow模型可视化
Netron软件https://github.com/lutzroeder/Netron使用方法直接安装exe,导入模型文件(如.h5),自动生成模型网络
2021-04-28 17:06:01 452
原创 机器学习 | 评估准则及指标
文章目录前言一、假设集合如何来衡量一个假设集合?二、如何来衡量假设集合1.分类能力 VC Dimension2.稳定性 bias-variance总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。一、假设集合首先抛出概念! “假设集合是一类模型的集合”, 如线性模型,多项式模型,树模型,神经网络模型等。机器学习的过程是,选择一类
2021-04-14 21:28:31 1040
原创 深度学习 | Tensorflow2.0使用心得
Tensorflow2.0使用心得文章目录Tensorflow2.0使用心得Keras一、Simple Model二、使用步骤1.引入库2.读入数据总结Keras Tensorflow2推荐使用keras构建网络,常见的神经网络都包含在keras.layer中 Keras 是一个用于构建和训练深度学习模型的高阶 API。它可用于快速设计原型、高级研究和生产。  
2021-04-12 15:04:31 504 3
原创 机器学习 | 集成学习大杀器GBDT&Xgboost
系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录泰勒展开,梯度下降法与牛顿法的联系一、pandas是什么?二、使用步骤1.引入库2.读入数据GBDT与Xgboost区别泰勒展开,梯度下降法与牛顿法的联系一阶泰勒展开:f(x)=f(x0)+f′(x)(x−x0)f(x)=f(x_0)+f^{'}(x)(x-x_0)f(x)
2021-04-07 00:11:13 603 2
原创 Python | 文件读写
f.read()返回类型str,读取全部内容f.readlines()返回类型list,按行读取全部内容f.readline()返回类型str,读取一行内容
2021-04-07 00:08:52 137
原创 推荐系统 | 朴素协同过滤算法
文章目录前言一、协同过滤的中心思想二、基于用户的协同过滤算法1. 算法步骤-将用户基于向量化表示,-使用向量空间模型(VSM)计算基础相关性,-利用基础相关性+用户原始行为,计算最终推荐结果2.算法分析总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、协同过滤的中心思想把用户/物品基于向量化的表示:如[1,0,1,0,1],
2021-01-09 16:59:39 222
转载 HEX文件格式详解
转载https://blog.csdn.net/weixin_39752827/article/details/81477686?utm_medium=distribute.pc_relevant.none-task-blog-searchFromBaidu-1.control&depth_1-utm_source=distribute.pc_relevant.none-task-blog-searchFromBaidu-1.control
2020-12-18 14:08:17 277
原创 Python | 正则表达式Re
Re模块import restr1 = ''asdf2020b_dev12dasdfasdf' #待匹配2020b_dev12dresult = re.search(r'\d{4}\w_(dev)\d{2}\w',str1)#待匹配字符串result.group() #待匹配字符串组1,即devresult.group(1) Webhttps://regexr.com/速查表
2020-12-14 21:39:59 296
原创 Pandas | 缺失值处理
Pandas缺失值处理文章目录Pandas缺失值处理前言一、判断缺失值二、处理缺失值利用sklearn工具填充缺失值总结前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表
2020-12-11 19:10:08 241
原创 解决Pycharm运行速度慢的方法
用惯了Jupyter,Spyder的开发者切换到Pycharm时,发现不论是打开IDE的速度,还是调试的速度都慢的让人想砸电脑,笔者在这花了好长时间生闷气,最终总结了几个坑来解决运行速度慢的问题,希望能帮到大家。1.扩大Pycharm运行内存打开后找到-Xms -Xmx两行,增加运行内存(根据电脑配置,笔者是8G内存),可明显改善打开IDE的速度2.新建工程选择Python解释器笔者常用Anaconda,因此选用了它3.解决运行时查看变量速度慢的方法File->Setting->
2020-12-06 20:28:51 29935 4
原创 机器学习 | 朴素贝叶斯算法
文章目录前言一、贝叶斯定理是什么?条件概率贝叶斯定理二、朴素贝叶斯算法前言 贝叶斯算法是一种分类算法,它以贝叶斯定理作为基础,因此被称为贝叶斯分类。其中“朴素贝叶斯”是贝叶斯分类中最基础的算法。一、贝叶斯定理是什么? 说到贝叶斯定理,不得不佩服伟大的数学家。不是说贝叶斯定理有多么复杂,而是真正的实用于我们的生活。 比如,当我们已知一件事情的条件概率P(A∣B
2020-10-27 00:13:03 287
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人