- 博客(199)
- 资源 (54)
- 收藏
- 关注
原创 置信区间笔记1 模型性能的置信区间
标准方法,无论是转换的还是未转换的,通常比调整后的方法产生更大的估计。公式中的interval是置信区间的半径,error和accuracy是分类误差和分类准确率,n是样本大小,sqrt是平方根函数,z是高斯分布的临界值。下面的例子在假设的情况下演示了这个函数,其中一个模型从100个实例的数据集中做出88个正确的预测,并且我们对95%的置信区间(作为0.05的显著性供给函数)感兴趣。例如,置信区间可以用来呈现分类模型的性能,可以这样描述:给定样本,范围x到y覆盖真实模型精度的可能性为95%。
2023-06-26 19:19:29 1575
原创 机器学习实验笔记-基于信用卡数据建立行为评分模型的机器学习方法
很久之前的一个答疑, 应该不会再影响评分了, 记录以供复习. 数据集与代码放在CSDN下载区域, 也可以留言索要.
2023-03-31 16:54:13 911 4
原创 归因分析笔记21 可解释的机器学习-李宏毅讲座
视频链接:课件链接:作业链接:Interpretable与explainable的差异Interpretable本身就可解释的(线性模型, 单颗浅层决策树)explainable本身不可解释的模型赋予其解释(深层决策树/随机森林)
2023-02-21 19:50:32 456
翻译 迁移学习笔记6 综述A Survey on Transfer Learning
在许多机器学习和数据挖掘算法中,一个重要的假设就是目前的训练数据和将来的训练数据,一定要在相同的特征空间并且具有相同的分布。然而,在许多现实的应用案例中,这个假设可能不会成立。.比如,我们有时候在某个感兴趣的领域有个分类任务,但是我们只有另一个感兴趣领域的足够训练数据,并且后者的数据可能处于与之前领域不同的特征空间或者遵循不同的数据分布。.这类情况下,如果知识的迁移做的成功,我们将会通过避免花费大量昂贵的标记样本数据的代价,使得学习性能取得显著的提升。....
2022-08-18 20:11:07 1010
翻译 迁移学习笔记5 MMDE
迁移学习解决的问题是如何利用源域中的大量标记数据来解决目标域中相关但不同的问题,即使训练和测试问题具有不同的分布或特征。在本文中,我们考虑了通过降维的转移学习。为了解决这个问题,我们学习了一个低维的潜在特征空间,其中源域数据和目标域数据之间的分布相同或接近。在这个潜在的特征空间上,我们将数据投影到相关领域,在那里我们可以应用标准学习算法来训练分类或回归模型。因此,潜在特征空间可以被看作是将知识从源域传递到目标域的桥梁。我们的主要工作是提出了一种。......
2022-08-15 09:26:17 1320
原创 迁移学习笔记4:ACML-Sinno Jialin Pan
迁移学习的使用场景监督学习的假设迁移学习的假设迁移学习与主动学习, 半监督学习的区别不同的迁移学习设置(settings)四种类型的迁移方法基于样本基于特征TCA为例介绍第一种方法MMD如何计算隐空间中源域与目标域概率分布距离如何学习核矩阵TCA思想用于DNN基于参数基于关系...
2022-08-12 12:52:36 1183
翻译 论文写作笔记5 JBHI相关信息
您的摘要应简要概述所进行的研究,得出的结论以及这些结论的潜在影响。一个强大的摘要还将1.由一个最多250个单词的段落组成,具有正确的语法和明确的术语2.自给自足;没有缩写、脚注、参考文献或数学方程式3.突出作品中的新颖之处4.包括3-5个描述研究的关键字或短语,以帮助读者找到您的文章大多数作者最后写摘要,并在文章发表前多次编辑,以确保它准确地捕获整篇文章。IEEE建议您不要在文章标题或摘要中包含数学符号,因为它们可能无法正确显示。...
2022-07-23 21:05:16 2931 2
原创 论文写作笔记4 期刊选择-医学&计算机
本次有两个目标1.整理人工智能和医学结合的好的期刊列表选投哪个期刊2.整理每个期刊主要发哪一类的文章,审稿周期/平均录用进度(这个在梅斯医学可以查到,就不标在此处了)
2022-07-14 20:47:07 5831
原创 数据处理笔记11 类别不平衡处理-抽样方法
目录分层抽样分层抽样示例上采样下采样分层比例/定额抽样原理, 参考:按比例分层抽样和定额抽样的区别? - 知乎(比例)分层抽样是概率抽样的一种,是指先分层再按总体群种中各层的比例随机抽样。定额抽样是非概率抽样的一种,是指分层并事先设定各层的主观配额比例,再进行抽样。举例:调查某高中学生的作息状况,该校高中1000人,高一350人,高二330人,高三320人。比例分层抽样:抽样100,高一35人,高二33人,高三32人。定额抽样(主观因素:调查者可能认为高三作息问题更严重,因此将更多配额事先给了高三):抽样1
2022-07-08 16:10:52 2825
原创 迁移学习笔记3: TCA, Finetune, 与Triplet Network(元学习)
MotivationTCA, Finetune, Triplet NetworkTCAFinetuneTriplet Network方法对比总结迁移学习基于特征的迁移学习方法 (Feature based)基于模型的迁移学习方法 (Model based)元学习(multi-task)元学习(Meta Learning)与迁移学习(Transfer Learning)的区别联系元学习特点元学习种类
2022-04-22 19:38:47 2870 7
转载 HDLSS笔记2进化森林Evolutionary Forest
目录数据情况DemoDemo尝试EF参数Evolutionary Forest "自动特征构建框架(Evolutionary Forest)-可解释性机器学习对比随机森林和Evolutionary Forest直接分类使用Evolutionary Forest构建的特征改进随机森林和XGBoost性能" scikit-learn中的“diabetes”442条样本,特征值10项 Evolutionary Forest:http...
2022-04-18 15:16:27 510
原创 归因分析笔记13 特征重要度正确性的验证
目录SHAP原论文引言第五节 计算和用户研究实验5.2 符合人类直觉5.3 解释分类差异引用文献验证方法总结SHAP原论文A Unified Approach to Interpreting Model Predictions《解释模型预测的统一方法》相关介绍:https://proceedings.neurips.cc/paper/2017/hash/8a20a8621978632d76c43dfd28b67767-Abstract.htmlpaper
2022-04-14 13:09:18 1054 1
原创 归因分析笔记10 PCA特征重构
PCA逆转换实验创建pcaInverseDemo.py进行尝试先试一下调包, 然后对比手刻的代码sklearn的逆转换建立简单矩阵, PCA转换, 输出值 import numpy as np from sklearn import decomposition # 建立简单矩阵 X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]]) # 将含有2个特征的数据经过PCA压
2022-03-19 21:04:30 3849 4
原创 归因分析笔记6:SHAP包使用及源码阅读
突然发现这篇文章居然被百度文库给盗了, 举报侵权还要我自己打印保证函, 最逗的是, 上传保证函图片还要求开启flash,其心昭然若揭.安装使用示例shap_values()KernelExplainer返回值使用KernelExplainer可视化SHAP医学解释相关论文项目实践堆叠热力图汇总SHAP值
2022-03-10 09:35:48 13533 3
原创 归因分析笔记5:机器学习可解释性
可解释的机器学习电子书《可解释的机器学习(Interpretable Machine Learning)》。在线阅读https://christophm.github.io/interpretable-ml-book/index.htmlGitHub:https://github.com/christophM/interpretable-ml-book该书认为特征被认为是可解释的,比如给定一天的温度或一个人的身高。特征的可解释性是一个很大的假设。但是,如果很难理解输入特征,那么就更难
2022-02-24 21:19:41 5381 2
原创 归因分析笔记4:PCA逆变换
PCA转回原特征例1参考:https://www.cnpython.com/qa/81148sklearn的PCA 转换是怎样手算, 如何执行反变换。pca对象的哪个字段包含反变换的相关系数?如何计算反变换?具体来说,我指的是sklearn.decomposition.PCA package中提供的PCA.inverse_transform()方法调用:如何使用PCA计算的各种系数重现其功能? 1)transform不是data * pca.components_。
2022-02-23 08:53:06 5486 6
原创 归因分析笔记3:视觉词袋-特征提取
Bag of Visual Words目录Matlab文档使用视觉词袋进行图像分类第1步:设置图像类别集第2步:创建特征袋第3步:用视觉词袋训练图像分类器第4步:对图像或图像集分类联系因果正则化论文作者目前的问题是, 这篇论文里所有特征都是01, 他都处理了.模型输入的特征不知道实际意义, 但是他最后还是能还原到图片上.作者回信:这篇文章当时是采用了Bag of Visual Words的特征提取方式,每张图片被抽象成了M维的词袋向量,每一维特征代表一个特定的
2022-02-20 13:57:35 2556
原创 归因分析笔记2:因果正则化学习论文
因果正则化学习Matlib代码https://github.com/Silver-Shen/Causally-Regularized-Learning论文https://dl.acm.org/doi/10.1145/3240508.3240577估计变量对输出的因果影响基于观测数据的因果推理,有代表性的方法有倾向得分匹配或加权[2,3,15]、马尔可夫毯子[13,25]和混杂均衡[1,12,14]思想他们在做了那种先因果推理,再进行模型构建的, 没有这种联合优化效果好
2022-02-17 20:33:09 1884 1
原创 归因分析笔记1:计算特征重要程度方法汇总
目录思路来源论文SHAP对机器学习模型解释对transformers模型解释归因问题attribution problem因果推理思路来源论文参考之前看到的论文:https://doi.org/10.1093/jamiaopen/ooab008基于机器学习的儿科器官移植受者健康结果预测利用Shapley加性解释(Shapley additive explanations)提高DL模型的可解释性(Interpretability)XAI作用介绍:基于DL算法
2022-02-17 18:14:40 2374
原创 数据处理笔记9:缺失值-多变量插补
目录Missforestycimpute安装使用MissingpySKlearn论文启发:https://doi.org/10.1093/jamiaopen/ooab008缺失值填充: MissForest及其算法流程由于我们的数据集包括分类变量和数值变量的混合,因此我们使用MissForest推算方法. MissForest受益于RF算法中处理缺失值的内置例程[38,39]。在这种推算方法中,对于每个变量,都会考虑对缺失值的初始猜测。然后,根据变量的缺失值数量从
2022-02-16 11:37:49 2796
翻译 JAMIA-肝移植1.住院情况预测
目录总结摘要背景和意义方法和材料患者UNOS数据数据预处理利用Shapley加性解释提高DL模型的可解释性结果预测模型使用Shap解释DL模型讨论医学变量心理社会变量局限性和未来方向结论总结1.基于机器学习的儿科器官移植受者健康结果预测论文主题Machine learning–based prediction of health outcomes in pediatric organ transplantation recipi
2022-02-04 17:00:28 620 3
原创 论文写作笔记3:JAMIA-相关论文
JAMIAJournal of the American Medical Informatics Associationhttps://amia.org/news-publications/journals/jamiahttps://academic.oup.com/jamiaopen?login=trueJCR Q1/Q2; CCF 综合B.中科院分区: 医学1区计算机2区管理学2区top搜索中的期刊文章仅直接链接到期刊站点的公共页面。对于仅限会员访问JAMIA或应用临床信息学
2022-02-04 16:53:01 1204
原创 数据处理笔记8:切片
经常用到切片操作, 所以把之前这方面的笔记汇总一下参考: https://blog.csdn.net/weixin_39861498/article/details/109621657a[start:end:step]逆序[0:4:-1]前两个数字代表范围(取下标0,1,2,3), 最后一个代表步长, -1时倒序取最后几个元素a = [1, 2, 3, 4, 5, 6]a[-1] # 6a[-2:] # [5, 6]a[:-2] # [1, 2, 3, 4]a[-
2022-01-31 16:55:12 782
原创 西瓜书笔记16-2:逆强化学习
目录逆强化学习概述强化学习与逆强化区别逆向强化学习分类学徒学习学徒学习思想相关定义算法描述学徒算法找最优策略\( \tilde{\pi} \)逆强化学习概述参考: https://zhuanlan.zhihu.com/p/26682811强化学习与逆强化区别强化学习是求累积回报期望最大时的最优策略,在求解过程中立即回报是人为给定的。人在完成具体任务时, 指定回报函数的方法是从人的示例中学到隐形的回报函数逆向强化假设: 专家在完成某项任务时,其决策往往是
2022-01-25 01:55:32 5615 1
原创 论文写作笔记2:AIME-相关论文
肝移植Liver Transplantation1. 动态加权进化+神经网络 解决类别不平衡 论文主题 论文发表时间 作者背景 使用方法 数据 论文 备注 1 动态加权进化+神经网络解决类别不平衡 (结合供体、复位和手术特征的器官分配, 有序多分类问题) Dynamically weighted evolutionary ordinal neural network for solving an imbalanced liver tra
2022-01-24 16:13:49 1954
翻译 论文写作笔记1:医学跨计算机期刊介绍
Artificial Intelligence in MedicineArtificial Intelligence in Medicine | Journal | ScienceDirect.com by Elsevier荷兰月刊, JCR分区Q1; CCF AI类C.中科院分区: AI2区, 生物医学2区AIM考虑发表同时具有以下两者的稿件:
2022-01-11 20:53:42 2310
原创 肝移植笔记8:对比实验_降维
固定缺失值处理看效果先对之前的缺失值填充部分, 把效果不好的都弃用, 只留术式改为0/1特征. 用原来的填充方法跑一遍. 改值 # 术式(经典1背驮2)处理成术式(经典1背驮0) tabel_new.loc[:,'术式(经典1背驮2)'] = tabel.loc[:,'术式(经典1背驮2)'].replace(2,0) tabel=tabel_new.copy() 改列名 # 改变列名 术式(经典1背驮2)->术式(经典1...
2022-01-09 21:28:59 669
原创 迁移学习笔记2:类别总结
什么是迁移学习迁移学习定义:利用数据、任务、或模型之间的相似性,将在旧领域学习过的模型,应用于新领域的一种学习过程。迁移学习的核心问题: 找到新问题和原问题之间的相似性找到才可以顺利地实现知识的迁移。比如天气问题中,那些北半球的天气之所以相似,是因为它们的地理位置相似;而南北半球的天气之所以有差异,也是因为地理位置有根本不同常用符号 符号 含义 $$ \mathcal{D}_{s}= \left\{\mathbf{
2022-01-05 22:47:41 1669
原创 数据处理笔记6:缺失值填充
参考:http://118.31.76.100:100/math/statics_topic/deal-na/缺失值,不仅包括数据库中的NULL值,也包括用于表示数值缺失的特殊数值(比如,在系统中用-999来表示数值不存在)。漠视这些数值的特殊性,直接拿来进行挖掘,那么很可能会得到错误的结论。常数来填充常常不是一个好方法。最好建立一些模型,根据数据的分布来填充一个更恰当的数值。(例如根据其它变量对记录进行数据分箱,然后选择该记录所在分箱的相应变量的均值或中位数,来填充缺失值,效果会更好一些)
2021-12-28 14:28:07 11310 8
原创 数据处理笔记5:循环读取excel中的各sheet
因为需要读取和处理的sheet表格比较多, 尝试重构并循环读取.之前参考的博客代码有一点问题, 踩坑了, 所以重新整理一篇.参考:https://blog.csdn.net/weixin_43581124/article/details/108015535这样写要快很多,以前相当于每个sheet都要读一遍整个excel文件,现在总共只需要读一遍excel文件 import pandas as pd def read_excel1(path): data_xl...
2021-12-21 11:02:12 2148
原创 统计学习笔记2: HMM
目录基本概念HMM的定义HMM三要素HMM的两个基本假设例子HMM的3个基本问题概率计算算法直接计算法前向算法例子后向算法前向后向算法学习算法监督学习求A求B求π无监督学习1. 确定完全数据的对数似然2. E步:求Q函数\( Q(\lambda, \bar \lambda) \)3. M步:求模型参数, 使极大化这个期望, 即Q函数.鲍姆-韦尔奇算法流程预测算法近似算法维特比算法维特比算法流程例子
2021-12-08 17:03:21 2481 3
原创 数据处理笔记3: 分层采样-k折交叉验证
Demo调试实作交叉验证, 参考:https://github.com/apachecn/hands-on-ml-2e-zh/blob/master/docs/3.mdStratifiedKFold参考: https://blog.csdn.net/weixin_44110891/article/details/95240937StratifiedKFold用法类似Kfold,但是它是分层采样,确保训练集,验证集中各类别样本的比例与原始数据集中相同。因此一般使用StratifiedKFold
2021-12-06 18:23:00 3296
原创 数据处理笔记1:类别不平衡-上采样
类别不平衡imblance problem查找一些资料样本不均讨论:https://blog.csdn.net/sp_programmer/article/details/48047101上采样、下采样、代价敏感代价敏感:设计objective function的时候给不同misclassification的情况不同的relative weights。也就是说给从小数量的样本被分成大数量的样本更大的penalty正样本样本绝对数很小。需要扩散正样本方法Synthetic Mi
2021-11-29 21:22:20 3972
原创 统计学习笔记1:提升方法(boosting)
什么是提升方法AdaBoost代码实践 Boosting主要算法提升树(boosting tree)模型梯度提升XGBoost
2021-11-15 16:07:55 1296
翻译 HDLSS笔记1:高维小样本上用GP多分类
注意看数据特点适应的方法创新找两篇和项目相似的看数据量极少的怎么做的(心电图),和特征工程理论是否能用到高维小样本上用遗传编程(GP)多分类T. Wei, W. -L. Liu, J. Zhong and Y. -J. Gong, "Multiclass Classification on High Dimension and Low Sample Size Data using Genetic Programming," inIEEE Transactions on Emerging T.
2021-11-09 13:05:49 1175 5
原创 肝移植笔记3:相关论文汇总
找计算机方面,医学方面的好期刊发表交叉学科论文医学方面期刊cell, cancer, lancet, journal of clinical medicine国内去知网看看,带中国、中华开头的杂志都不错, 就找肝相关的杂志,分泌、内科相关的搜一下论文pdf寻找可以去学校图书馆里找找,或者谷歌学术小样本的搜下关键字,看下都有啥期刊计算机方面的在dblp搜:dblp: computer science bibliographyhttps://www.sciencedirect
2021-11-03 09:43:26 1034 1
原创 肝移植笔记2:论文阅读-肝移植辅助决策研究
摘要目标:预测分类问题难点:肝移植的样本数据集很小而特征空间很大。机器学习方法用于小样本,特征空间很大的医疗数据集时存在着预测准确率低,精确率和召回率不高等问题方法:对北京某医院提供的医疗数据,通过迁移成分分析TCA进行特征空间的映射与降维,再使用机器学习的方法进行分析,构建肝移植术后并发症预测模型,并挖掘对术后发生并发症有重要影响的医学指标特征。1.绪论肝移植失败的主要原因:不再是排斥反应,而是术后感染术前终末期肝病模型(Model for end-stage liver dise
2021-10-29 20:21:21 1067 1
php实验表单提交并验证
2019-03-13
php实验表单页面 最终版
2019-03-02
Unity家装设计(加载AssetBundle版本
2019-02-18
Struts框架教程
2018-12-27
机器学习实验-基于信用卡数据建立行为评分模型的机器学习方法
2023-03-31
AdaBoost代码数据集+注释与修改.zip
2021-11-19
李宏毅ML作业3: 食物分类(kaggle预测与报告题目)
2021-07-12
李宏毅ML作业2(薪资水平分类
2021-05-24
李宏毅ML作业1(PM2.5预测
2021-04-17
web-frame v1.0
2020-06-02
web-frame.rar
2020-05-17
机器学习项目 (代码梳理)推荐系统第二弹.pptx
2020-01-02
jupyter slide
2019-09-17
where2go 数据分析+神经网络+flask推荐系统
2019-09-03
VRP的py禁忌搜索+tsplib数据集与matlab.rar
2019-08-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人