笔记
文章平均质量分 64
无价攻城狮
不认输的卷心菜
展开
-
task02
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8V89rCkp-1647711740516)(C:\Users\admin\AppData\Roaming\Typora\typora-user-images\image-20220316201046269.png)]一个query一一对应一个doc长度、关键词、思路:代码baseline上分点:品牌词典有没有必要使用已有的词向量?没有,因为数据足够IDF:计算单词重要性即识别出哪些词在数据中是重要的原创 2022-03-20 01:47:31 · 318 阅读 · 0 评论 -
task1
Task1伯努利模型P(X=1)=pP(X=0)=1−p三要素(1)极大似然估计 模型:伯努利模型 策略:经验风险最小化。极大似然估计,等价于当模型是条件概率分布、损失函数是对数损失函数时的经验风险最小化。 算法:极大化似然:P(X|p)pargmaxL(p∣X)=pargmaxP(X∣p)(2)贝叶斯估计 模型:伯努利模型 策略:结构风险最小化。贝叶斯估计中的最大后验概率估计,等价于当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时的结构风险原创 2021-12-16 01:58:06 · 1215 阅读 · 0 评论 -
task_5 - 副本
Task01–Task06树模型与集成学习笔记整理****************************************************************************************************************** 1Task01信息论基础决策树分类思想:用树的节点代表样本集合,通过某些判定条件来对节点内的样本进行分配,将它们划分到当前节点下的子节点,这样决策树希望各个子节点中类别的纯度之和应高于该节点中的类别纯度,达到分类效果。节原创 2021-11-09 01:13:20 · 834 阅读 · 0 评论 -
task_6 - 副本
Task07:梯度提升树-LightGBM互斥特征绑定实际的数据特征中可能有许多稀疏特征,即其非零值的数量远小于零值的数量,因此希望能够将这些特征进行合并来减少稀疏特征的数量,从而减少直方图构建的时间复杂度。我们将任意两个特征都不同时取非零值的特征集合称为一族互斥特征,数据集中的所有特征可被划分为这样的若干族互斥特征,例如下面就是一族互斥特征。LightGBM提出了将互斥特征合并为单个特征的策略,从而让构建直方图的时间复杂度得以降低,因此需要找到最少的互斥绑定数量,即最少可以划分为几族。遗憾的是这个问原创 2021-11-08 01:56:55 · 80 阅读 · 0 评论 -
task_6
Task06:GBDT的分类和回归一、Boosting算法首先这三种算法都属于Boosting方法,且GBDT是机器学习算法,XGBoost和LightGBM是GBDT的算法实现。Boosting方法训练基分类器时采用串行的方式,各个基分类器之间有依赖。其基本思想是根据当前模型损失函数的负梯度信息来训练新加入的弱分类器,然后将训练好的弱分类器以累加的形式结合到现有模型中。这个过程是在不断地减小损失函数,使得模型偏差不断降低。但Boosting的过程并不会显著降低方差。这是因为Boosting的训练过原创 2021-11-04 02:26:03 · 100 阅读 · 0 评论 -
task_5
Task05:adaboost的分类和回归AdaBoost:优点:泛化错误率低, 码,可以应用在大部分分类器上,无参数调 。缺点:对离 点敏 。适用数据类型:数值型和标 型数据。AdaBoost的一般流程:能否使用弱分类器和多个实例来构建一个强分类器?这是一个非常有趣的理论问题。这里的“弱”意味着分类器的性能比随机猜测要略好,但是也不会好太多。这就是说,在二分类情况下弱分类器的错误率会高于5 0 %,而 “强”分类器的错误率将会低很多。AdaBoost运行过程如下:训练数据中的每原创 2021-10-30 22:42:59 · 114 阅读 · 0 评论 -
task_4
Task04决定系数:R2(R-Square):R2方法是将预测值跟只使用均值的情况下相比,看能好多少。其区间通常在(0,1)之间。0表示还不如什么都不预测,直接取均值的情况,而1表示所有预测跟真实结果完美匹配的情况。R方一个综合评估的指标,可以理解为因变量y中的变异性能能够被估计的多元回归方程解释的比例,它衡量各个自变量对因变量变动的解释程度,分母理解为原始数据的离散程度,分子为预测数据和原始数据的误差,二者相除可以消除原始数据离散程度的影响.其取值在0与1之间,其值越接近1,则变量的解释程度原创 2021-10-24 22:58:30 · 206 阅读 · 0 评论 -
task_3 -10月
Task03目标理解泛化误差分解的过程bagging的性质掌握四种集成模式的工作流程均方误差训练均方误差:训练集上的数据,那么这个误差为训练均方误差测试均方误差:测试集的数据计算的均方误差,我们称为测试均方误差目标:我们并不关心模型在训练集上的训练均方误差,我们关心的是模型面对未知的样本集,即测试集上的测试误差,我们的目标是使得我们建立的模型在测试集上的测试误差最小。训练误差达到最小时,测试均方误差一般很大.模型的方差模型的方差:用不同的数据集去估计ff时,估计函数的改变量,例如:原创 2021-10-20 23:04:54 · 102 阅读 · 0 评论 -
task_2
Task2CART树算法CART中用于选择变量的不纯性度量是Gini指数,最好的划分就是使得GINI_Gain最小的划分。参考:https://blog.csdn.net/u011067360/article/details/24871801实现CART的分类树算法代码class Node: j=None theta=None p=None left=None right=Noneclass DecistonTreeBasel: def__in原创 2021-10-17 23:17:47 · 85 阅读 · 0 评论 -
task_1
Task01信息论基础决策树分类思想:用树的节点代表样本集合,通过某些判定条件来对节点内的样本进行分配,将它们划分到当前节点下的子节点,这样决策树希望各个子节点中类别的纯度之和应高于该节点中的类别纯度,达到分类效果。节点类别纯度:节点纯度反映的是节点样本标签的不确定性。当一个节点的纯度较低时,说明每种类别都倾向于以比较均匀的频率出现,从而我们较难在这个节点上得到关于样本标签的具体信息,其不确定性较高。当一个节点的纯度很高时,说明有些类别倾向于以比较高的频率出现,从而我们能够更有信心地把握这个节点样原创 2021-10-14 22:27:21 · 101 阅读 · 0 评论 -
task02
NLP-------Bert句子分类这个任务给我的感觉非常明确,让我印象特别深的是Bert大牛的范式“预训练+微调”。明确输入输出:电影或者产品的评价。输出:判断这个评价是正面的还是负面的。输入:两句话。输出:两句话是否是同一个意思。微调的理解:针对特定任务需要,在BERT模型上增加一个任务相关的神经网络,比如一个简单的分类器,然后在特定任务监督数据上进行微调训练。(微调的一种理解:学习率较小,训练epoch数量较少,对模型整体参数进行轻微调整)。BERT模型结构:BERT模型结原创 2021-09-18 02:57:49 · 87 阅读 · 0 评论 -
2021-09-16
task 02,attention和seq2seqRNN假设序列输入是一个句子,这个句子可以由nnn个词表示:sentence=w1,w2,...,wnsentence = {w_1, w_2,...,w_n}sentence=w1,w2,...,wn。RNN首先将句子中的每一个词映射成为一个向量得到一个向量序列:X=x1,x2,...,xnX = {x_1, x_2,...,x_n}X=x1,x2,...,xn,每个单词映射得到的向量通常又叫做:word embedding。然后在处理原创 2021-09-16 01:31:55 · 70 阅读 · 0 评论 -
2021-08-30
常用开源数据集检索站点格物钛/Coggledatawhale冲浪科技1505小时中文语音数据集:https://www.datatang.com/dataset/info/speech/351000小时希尔贝壳中文普通话语音数据库AISHELL-2:http://www.aishelltech.com/aishell_2178小时希尔贝壳中文普通话开源语音数据库AISHELL-ASR0009-OS1录音:- http://www.aishelltech.com/ky原创 2021-08-30 19:13:08 · 96 阅读 · 0 评论 -
task03
task03 关于视图的创建、修改、查询、定义基于单表的视图我们在product表的基础上创建一个视图,如下:CREATE VIEW productsum (product_type, cnt_product)ASSELECT product_type, COUNT(*) FROM product GROUP BY product_type ;基于多表的视图我们在product表和shop_product表的基础上创建视图。CREATE VIEW view_shop_prod原创 2021-08-23 01:54:02 · 81 阅读 · 0 评论 -
2021-08-20
task02task02有参考大佬们的学习笔记,但也有也会补充自己的学习笔记1.创建数据库、表CREATE DATABASE shop;CREATE TABLE product (product_id CHAR ( 4 ) NOT NULL,product_name VARCHAR ( 100 ) NOT NULL,product_type VARCHAR ( 32 ) NOT NULL,sale_price INTEGER,purchase_price INTEGER,regist_d原创 2021-08-20 00:24:57 · 127 阅读 · 0 评论 -
2021-08-17
task 01搭建环境在学校上过一门数据库专业课,我们做sql基本实验,于是搭建了微软sql server来运行sql,没装MySQL相关环境,所以最近重新搭建这个MySQL运行环境,但还不够完善呢,那个管理sql的软件系统还没装。初识数据库数据库是将大量数据保存起来,通过计算机加工而成的可以进行高效访问的数据集合……还有很多关于数据库的概念,我手上的数据库系统概论里面比较全,后面继续补充。初识SQLSQL是为操作数据库而开发的语言。国际标准化组织(ISO)为 SQL 制定了相应的标准,以此为基原创 2021-08-17 23:34:48 · 96 阅读 · 0 评论 -
Task_5
Task_5基于集成方法的异常检测Feature Bagging、孤立森林子空间思想:在高维场景下的集成,利用多个算法在子集的表现,把模型方法结合起来。Feature Bagging:1.选择基检测器,2.分数标准化和组合方法注意:基探测器的设计及其组合方法都取决于特定集成方法的特定目标。很多时候,我们无法得知数据的原始分布,只能通过部分数据去学习。除此以外,算法本身也可能存在一定问题使得其无法学习到数据完整的信息。这些问题造成的误差通常分为偏差和方差两种。方差:是指算法输出结果与算法输出期望原创 2021-05-24 02:57:03 · 73 阅读 · 0 评论 -
Task_4
Task_4:异常检测算法之基于邻近度在异常检测中,我们弱化了“噪声”和“正常数据”之间的区别,专注于那些具有有价值特性的异常值。在基于相似度的方法中,主要思想是异常点的表示与正常点不同。假设:异常点的 kkk 近邻距离要远大于正常点。当数据量比较大时,这样计算是及不划算的。 因此,需要修剪方法以加快距离计算。什么是单元格方法:具体地说,每个维度被划分成宽度最多为 xx单元格。在给定的单元以及相邻的单元中存在的数据点满足某些特性,这些特性可以让数据被更有效的处理。网格单元的数量基于数据原创 2021-05-21 02:21:00 · 71 阅读 · 0 评论 -
Task_3
Task_3机器学习算法中的搜索算法梯度下降随机梯度下降小批量梯度下降牛顿梯度下降目标:min损失函数我们的优化目标是要求得在误差最小的情况下模型参数的值,我们希望在这个数据上面寻找模型参数来使模型的预测价格与真实价格的误差最小。基于线性回归的异常检测异常检测中并不会对任何变量给与特殊对待,异常值的定义是基于基础数据点的整体分布,因此需要采用一种更一般的回归建模:即以相似的方式对待所有变量,通过最小化数据对该平面的投影误差确定最佳回归平面。原理推导值得注意的是,对异常得分的大部分贡献是原创 2021-05-18 02:38:40 · 125 阅读 · 0 评论 -
Task_02
Task_2:基于统计学的方法问题1:非参数方法的直方图 怎么构造 如何检测 判断正常与异常的依据是啥?基于角度的思想:角度思想顾名思义,依据角度去判断异常与正常数据。角度又是什么角度,它是指数据间的角度,是三个或以上的数据点连线构成的角度。如果其中有个点与另外两个点构成的角度非常小,小是相对于内部数据点的角度大且方向多,那么异常数据也就可以学习到。对于如何数学推导,证明待补HBOS相对于角度算法,时间复杂度比较小,对于大型数据集比较友好原创 2021-05-15 02:03:54 · 81 阅读 · 0 评论 -
Task_01
异常检测基本概念与方法1.比如基于模型方法的异常检测:异常检测是一种技术,一般首先建立一个数据模型,对于不能完美拟合或偏离模型非常远的数据很可能是异常的。2.高斯分布特点:高斯分布是自然界最常见的分布形态,用它来做异常检测是非常合适的模型。枪打出头鸟,那些分布在两端的小概率事件,要么好的出奇(右边),要么差得离谱(左边)。3.异常检测场景(补充): . 在工业制造。比如某个制造飞机引擎的公司,从飞机引擎提取出一系列的特征值,并且训练出一个模型。当新制造出来的引擎符合这个模型时,就可认为是良品,原创 2021-05-12 01:37:39 · 110 阅读 · 0 评论 -
task_3
EDA–数据预处理探索分析nan统计Train_data.isnull().sum()数据概览Test_data.info()Train_data.describe()可视化缺失情况# 可视化看下缺省值msno.matrix(Train_data.sample(250))msno.bar(Train_data.sample(1000))了解数据分布并替换改变分布Train_data['notRepairedDamage'].value_counts()"""0.0原创 2021-04-16 23:11:39 · 91 阅读 · 0 评论 -
task_1
task_1赛题数据概况:数据集(条):训练集:5w;测试集A:5w;测试集B:5w;特征列(31列):匿名特征(15列)和非匿名特征全部数据已经脱敏、编码。预测评估指标平均绝对误差(Mean Absolute Error,MAE)评估指标拓展分类算法:混淆矩阵(Confuse Matrix)(1)若一个实例是正类,并且被预测为正类,即为真正类TP(True Positive )(2)若一个实例是正类,但是被预测为负类,即为假负类FN(False Negative )(3原创 2021-04-13 23:13:16 · 212 阅读 · 1 评论 -
task_3
优化模型、评估模型指标训练均方误差:训练集上的数据,那么这个误差为训练均方误差测试均方误差:测试集的数据计算的均方误差,我们称为测试均方误差目标:我们并不关心模型在训练集上的训练均方误差,我们关心的是模型面对未知的样本集,即测试集上的测试误差,我们的目标是使得我们建立的模型在测试集上的测试误差最小。训练误差达到最小时,测试均方误差一般很大模型的方差:用不同的数据集去估计ff时,估计函数的改变量,例如:100个1000人的样本集。我们使用线性回归模型估计参数就能得到100个线性回归模型。由于样本抽原创 2021-03-22 23:07:15 · 177 阅读 · 0 评论 -
集成学习初步task_2
集成学习(上):任务二掌握基本的回归模型、机器学习问题一般流程1、什么是回归? 概念来源:19世纪80年代由英国统计学家郎西斯.高尔顿在研究父子身高关系提出来的,他发 现:在同一族群中,子代的平均身高介于父代的身高以及族群的平均身高之间。具体而言,高个 子父亲的儿子的身高有低于其父亲身高的趋势,而矮个子父亲的儿子身高则有高于父亲的身高的 趋势。也就是说,子代的身高有向族群平均身高"平均"的趋势,这就是统计学上"回归"的最初含 义。2、回归的问题对象是什么? 研究的是因变量(目标)和自变量(原创 2021-03-18 21:38:15 · 302 阅读 · 0 评论 -
successfulHomework_1
Re库1、 学习链接:https://zhuanlan.zhihu.com/p/135862699folium库1、学习链接A:https://blog.csdn.net/weixin_43903639/article/details/113873381学习链接B: https://blog.csdn.net/ouening/article/details/788820942、 首先folium是一个地理信息可视化库,3、 一般步骤是:第一使用*m=folium.Map()初始化地图的四个参数原创 2021-03-13 21:46:26 · 453 阅读 · 1 评论