![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 85
小果一粒沙
To be brave.
展开
-
文本生成评估指标简单介绍BLEU+ROUGE+Perplexity+Meteor 代码实现
(或其他自然语言处理任务)的质量,即:衡量目标文本与生成文本之间的匹配程度,此外还考虑生成文本的召回率,BLEU则相对更看重生成文本的准确率,着重于涵盖参考摘要的内容和信息的完整性。分别有四种方法:ROUGE-N, ROUGE-L, ROUGE-W, ROUGE-S。原创 2023-11-05 22:31:52 · 1318 阅读 · 0 评论 -
Task02 机器学习基础
文章目录参考机器学习基本概念:误差分析有监督学习线性回归广义线性模型逻辑回归支持向量机决策树集成学习无监督学习聚类降维参考常见机器学习分类_梦沁清风-CSDN博客_机器学习分类机器学习算法分类 - 秋雨秋雨秋雨 - 博客园 (cnblogs.com)机器学习分类 - 狂狷 - 博客园 (cnblogs.com)机器学习主要学习了一些机器学习的基础知识,教程很简单,这次笔记主要是按照教程的框架进行了一些本统计学上的拓展。其中主要学习到了:切分数据集的原因、作用。机器学习的误差来源,以及补充原创 2021-11-20 22:15:18 · 4221 阅读 · 0 评论 -
Task 06(XGBoost, LightGBM
Task 08侧边栏练习【练习7】请写出L(m)(Fi(m))L^{(m)}(F_i^{(m)})L(m)(Fi(m))在Fi(m)=Fi(m−1)F_i^{(m)} = F_i^{(m-1)}Fi(m)=Fi(m−1)处的二阶展开。L(m)(Fi(m))=γT+12λ∑j=1Twj2+∑i=1N[∂L∂hi∣hi=0hi+∂2L∂hi2∣hi=0hi2]+constant=γT+12λ∑j=1Twj2+∑i=1N[∂L∂Fi(m−1)∣Fi(m)=Fi(m−1)(Fi(m)−Fi(m−1))+原创 2021-11-07 23:51:07 · 94 阅读 · 0 评论 -
Task 06 梯度提升树(上
【资料链接】https://datawhalechina.github.io/machine-learning-toy-code/index.html【内容概要】Part D第一节和第二节【打卡内容】侧边栏练习,知识回顾,实现gbdt的分类树和回归树简单总结1、学习了GBDT回归参数优化问题的不同自处,将原本对一个参数的拟合,变成对数据树模型的拟合,模型的输出结果为我们原本想要的参数结果。2、了解GBDT回归在损失函数下的更新的不同,不再局限于原来的均方损失;学习参数w的更新方式,以及模型更新的方原创 2021-11-04 00:12:03 · 82 阅读 · 0 评论 -
Task 05 AdaBoost(自适应提升方法
【资料链接】https://datawhalechina.github.io/machine-learning-toy-code/index.html【内容概要】掌握adaboost用于分类和回归的流程原理,第4节选学【打卡内容】侧边栏练习,知识回顾,算法2和算法4的代码实现学习到的内容1、重点了解了AdaBoost的由来,以及关于样本权重以及基学习器权重的更新策略。2、在进行分类时,因变量的设置、损失函数的设置以及为什么要这么设置损失函数,知道这么做为什么是合理的;了解训练的流程以及决策的判断,原创 2021-10-30 23:10:16 · 149 阅读 · 0 评论 -
Task 04 随机森林和孤立森林0-23
【内容概要】理解随机森林的训练和预测流程,特征重要性和oob得分计算,孤立森林的原理以及训练和预测流程【打卡内容】侧边栏练习,知识回顾后三题,实现孤立森林算法和用于分类的随机森林算法(可以用sklearn的决策树或task2中自己实现的分类cart树)什么是随机森林的oob得分?oob得分是指对模型训练效果的评价,利用抽取得到的样本进行训练,对oob样本进行预测,得到的预测效果好坏的评价。随机森林是如何集成多个决策树模型的?将多个模型训练的结果进行集成。其中,当目标是进行分类时,使用投票法原创 2021-10-24 00:14:24 · 1846 阅读 · 0 评论 -
task 03 集成模式
Task01开始啦:决策树(上),截止时间:10月21日03:00-------【资料链接】https://datawhalechina.github.io/machine-learning-toy-code/01_tree_ensemble/02_ensemble.html#part-b主要学习知识点:【练习1】左式第四个等号为何成立?当cov(ED[f^D]−f^D,ϵ)=0cov(\mathbb{E}_{D}[\hat{f}_D] - \hat{f}_D, \epsilon) = 0原创 2021-10-20 23:25:48 · 97 阅读 · 0 评论 -
Task 02 决策树(下)CART分类代码实现(参考datawhale
主要是改写CART回归代码两点:分裂节点的标准,从MSE变成了gini选择输出节点的特征,由原来的取平均变成求最大值先写一下大致的代码逻辑吧总的来说定义节点分类方式定义一个树 如何生成一棵树肯定是要进行节点的分裂判断一个节点分裂还是不分裂 -> 定义分裂的条件可以分裂之后,怎么办 -> 需要分裂的方式(即如何进行节点的分裂)如何进行节点的分裂 -> 定义分裂的准则找到哪个特征进行分裂 -> 利用信息准则进行判断,找到最优的特征和相应的最优切分.原创 2021-10-17 21:46:49 · 426 阅读 · 0 评论 -
Task 01:决策树(上)打卡(学习内容简单总结+课后题自解
Task1:学习链接:Part A: 决策树 — Datawhale (datawhalechina.github.io)学习到的知识:从信息论中引入信息熵,此作为判断节点不纯度,通过分裂来降低子节点的平均不纯度。熟悉了信息熵的理论定义、性质(关于n增大,极值等);信息增益的定义。这层了解比之前仅仅了解三个公式(信息增益、信息增益比、GINI指数好多了)。从sklearn对ID3, C4.5,CART的实现中了解他们之间的区别。例如对连续变量的处理、缺失值的处理,以及找分割点的方式(最佳分割、随原创 2021-10-14 20:53:40 · 156 阅读 · 0 评论 -
推荐系统中召回步骤(粗糙
讲一下召回的大致流程,粗糙的,以后慢慢细化1,获取数据需要用到的数据:原始数据,有五个场景,全场景、home, hot, rel, chooseECPM数据,可能是需要计算imei, APP_id数据mapping数据,一个index,一个是appidembedding数据,一个index, 一个是软件的编码,与mapping是相对应的2,处理数据,进行筛选主要筛选有以下几步:重复变量空数据曝光数目比较小,需要删去流量的筛选,这会对之后某个模块的调参有影响。一个对照组,一.原创 2021-09-02 18:55:26 · 233 阅读 · 0 评论 -
R语言--数据挖掘6--探索性分类建模分析
探索性分类建模分析本报告的主要内容:对报告使用的iris数据和wine数据做介绍。简要介绍基本判别分析、朴素贝叶斯和k近邻的原理。结合原理进行建模分析。对本次报告的总结。代码以及参考。数据介绍本次报告主要使用两个数据:鸢尾花iris数据和酒wine的数据。鸢尾花iris数据:主要有5个字段变量,150个观测数据。其中前4个变量分别是Speal.Length, Sepal.Width, Petal.Length, Petal.Width,它们是我们主要用这4个变量来进行分析,最后一个原创 2021-05-10 14:43:34 · 653 阅读 · 0 评论 -
日照-公积金贷款逾期预测-比赛总结
前言主要是过去一年做事情没有一个系统化的概念,今年就想就此改变一下。先从写笔记开始,将我这学期学习到的东西,参加的比赛,写出来,算是过路有痕。比赛大部分应该不是我自己一个人参加的,分工合作嘛,那我就把自己做的写出来,详细点;了解了一点东西,写下来,以后就可以更加深入学习了。同学做的,写出来,简略一下,不过我也尝试了解一下他们的思想,下次去实现一下。不一次性写完,尽量想写得详细一些。写完的就画勾勾,没写完就继续写,反正养成记录的习惯。(我的碎碎念我写的代码后面也跟着整理出来(就算是辣鸡我也要整理出来!原创 2021-03-03 17:18:12 · 585 阅读 · 5 评论 -
文本分类(四)--分类好坏的评价
所使用的主要有四个评价的标准,根据不同的分类情况,有的单独分析,有的综合着来看。这四个评估标准分别是Accuracy, Precision, Recall, f1-score.我自己对他们的理解:Accuracy(准确率):(TP+TN)/(TP+TN+FP+FN)综合分类正确的概率,综合是指正类和负类被分类正确的概率Precision(精确率):TP/(TP+FP) or TN/(T...原创 2019-05-26 17:21:28 · 3062 阅读 · 1 评论 -
文本分类(三)--对已经处理好的数据使用KNN、Naive Bayes、SVM分类方法
注:所有的数据已经经过minmaxscaler标准化为【0,1】区间的值KNN根据距离来分类。给定一个K值,在待分类的样本点中找到已经分类的K个点,K中哪一类越多,则就将其分为哪一类。别人说的是近朱者赤近墨者黑,我的理解就是我距离你越近,则我属于你的置信概率就越大。具体参考资料:Python之Sklearn使用教程K最近邻算法(KNN)—sklearn+python实现机器学习(一)...原创 2019-05-26 11:30:40 · 3579 阅读 · 0 评论 -
文本分类(二)文本数据数值化,向量化,降维
前言上面一篇博客文本分类流程(一)文本分类的大致步骤+数据预处理------毕业论文的纪念已经讲述了文本处理中的两个步骤,网页获取+数据清洗,得到了干净的文本数据。下面开始介绍如何将我们能够识别的文本数据转化为机器可以识别的数值数据(向量)我们知道机器能够对数值数据使用各种公式,它只能够识别这些,所以我们就开始着手将我们所获取到的文本数据转化为数值数据。以下简单的介绍一些我所知道的三种文本...原创 2019-05-25 17:14:55 · 12686 阅读 · 0 评论 -
SVM的文字理解--无公式版,纯思想分享
所谓的svm算法是一个有监督学习类的二分类方法。我们需要找到一个超平面将两类数据分开来,不提出要求的话,会找到很多的超平面,但是他们肯定不都是最优的,我们要是找一个分类平面肯定是在以后的分类中适应性比较强的平面。那么我怎么设定相关的约束条件来找到这样的一个平面呢。接下来就要请出我们的机器学习的分类方法了。这些方法包含有逻辑回归,还有决策树。我们都希望通过这些分类器将两个类别的数据分开来。开始讲了,...原创 2019-05-08 09:00:45 · 185 阅读 · 0 评论