算法
HxShine
这个作者很懒,什么都没留下…
展开
-
CRF条件随机场loss函数与维特比算法理解
1. 参考资料详解条件随机场(CRF)-batch版本:https://zhuanlan.zhihu.com/p/38119194简明条件随机场CRF介绍 | 附带纯Keras实现:https://www.jiqizhixin.com/articles/2018-05-23-3序列标注算法(二):http://fancyerii.github.io/books/sequential_labeling2/CRF(条件随机场)与Viterbi(维特比)算法原理详解:https://blog.csdn.n原创 2020-08-05 13:03:05 · 6705 阅读 · 1 评论 -
算法总结
1.基础算法1.1 快速排序def sort(nums): """快速排序封装""" def quik_sort(nums, l, r): if l >= r: return # 分为两部分 # k1 记录左边小于nums[r]的位置, k2记录当前遍历到的位置 k1 = k2 = l for k2 in range(l, r): if nums[k2]原创 2020-05-31 10:28:06 · 345 阅读 · 0 评论 -
nlp学习资料汇总
1.基础1.1一文看懂自然语言处理语言模型 n-gram word-embedding CBOW Skip-gram解读https://blog.csdn.net/qq_16949707/article/details/1058347551.2 序列标注ner原理,CRF作用以及transformers ner使用https://blog.csdn.net/qq_16949707/article/details/105742383网易云课堂,有一个ner的讲解,讲了hmm,crf基础原理,感觉还不原创 2020-05-14 10:58:34 · 330 阅读 · 0 评论 -
一文看懂自然语言处理语言模型 n-gram word-embedding CBOW Skip-gram word2vec glove解读
1.n-gram自己理解:n代表窗口长度,n-gram的思想就是先滑窗,然后统计频次,然后计算条件概率,你可以取前面n个的条件概率,不一定要取全部的,最后得到的是整个句子的一个概率,那这个概率可以代表句子的合理性。详情见:https://zhuanlan.zhihu.com/p/32829048如何利用n-gram作为额外的特征呢?例如:我 爱 北京 天安门这样词就有各种组...原创 2020-04-29 15:05:51 · 2079 阅读 · 0 评论 -
bagging 随机森林 boost adboost gbdt xgboost lightgbm思想与不同,以及优缺点
1.bagging特点:数据有放回采样分类最终投票回归最终平均优点可并行,提升泛化能力缺点可能欠拟合https://www.cnblogs.com/hugechuanqi/p/10554156.html2.随机森林特点:数据有放回采样增加了随机选择特征分类最终投票回归最终平均优点可并行,提升泛化能力缺点可能欠拟合https://www.cnblogs....原创 2020-04-28 11:56:16 · 1128 阅读 · 0 评论 -
lda pca资料整理
一、LDA与PCA都是常用的降维方法,二者的区别LDA与PCA原理和区别都是为了降维:其目的,方式,和作用都不一样。二、LDA、PCA、NCA降维后利用knn分类example...原创 2019-08-19 20:59:44 · 179 阅读 · 0 评论 -
序列模式挖掘资料收集
一 4种序列模式比较序列模式挖掘比较二 PrefixSpan算法原理总结PrefixSpan算法介绍三 An Open-Source Data Mining Library开源java序列模式挖掘库四 code4.1 pythongsp:gspprefixspan:prefixspan4.2 javaMaxSP:MaxSP...原创 2019-08-19 15:30:46 · 182 阅读 · 0 评论 -
Pathway-Finder: An Interactive Recommender System for Supporting Personalized Care Pathways论文解读
Pathway-Finder: An Interactive Recommender System for Supporting Personalized Care PathwaysAbstract临床路径优化治疗效果和资源分配,本文提出Pathway-Finder,交互式的推荐系统去可视化探索和发现临床路径。有效的收集和展示患者的信息,提支持有效的个性化的治疗计划,Pathway-Find...原创 2019-08-07 17:54:20 · 171 阅读 · 0 评论 -
Data-driven modeling of clinical pathways using electronic health records论文解读
Data-driven modeling of clinical pathways using electronic health records根据临床路径来聚类对临床路径的分类来探索路径不同的原因临床路径预测模型病人治疗应该是有个性化差异的相似病情特征的病人分到同一组,而不是像医生那样,只是看诊断。假设有一种临床路径可以将病人分开,相当于一种病人有一K-种适应的临床路径。风险预...原创 2019-08-07 17:09:11 · 338 阅读 · 0 评论 -
Zero-Shot-Detection资料总结以及学习
1 概览1.1 目标检测纯图像问题1.2 Zero-Shot Learning通过辅助数据将知识从看到的类转移到看不见的类来实现的,辅助数据通常可以从文本源轻松获得,也就是从word embedding来获取。1.3 Zero-Shot Detection现有的ZSL方法主要关注分类问题。 虽然零镜头对象检测(ZSD)任务旨在识别和本地化没有训练样例的对象类的实例,但纯粹基于描述类特征...原创 2019-08-24 11:42:59 · 1070 阅读 · 1 评论 -
机器学习分类问题资料和代码整理
1. 评价函数机器学习分类器模型评价指标Imbalanced data & why you should NOT use ROC curve查看sklearn评价参数:sorted(sklearn.metrics.SCORERS.keys())2.模型Multiclass classification using scikit-learn2.1常见模型和库# Essentia...原创 2019-08-22 16:03:04 · 702 阅读 · 0 评论 -
视频描述生成vedeo caption资料整理(待完成)
代码1. xiadingZ/video-caption.pytorch2.pochih/Video-Cap3.JaywongWang/DenseVideoCaptioningdataset:Dense-Captioning Events in Videos,activitynet_c3d_fc7_stride_64_frame.hdf54.scopeInfinity/Video2D...原创 2019-08-22 16:35:35 · 1232 阅读 · 0 评论 -
行人多目标跟踪资料收集(待完成)
1 ZQPei/deep_sort_pytorchpytorch实现,并且有训练2 基于YOLOv3和deep_sort的多目标跟踪讲了一个demo库怎么用的流程,没有讲训练原创 2019-08-23 01:25:56 · 874 阅读 · 0 评论 -
特征选择资料整理
特征选择资料整理机器学习中,有哪些特征选择的工程方法?比较详细,包括大部分分类问题的特征选择和利用模型模型特征选择的方法。1.13. 特征选择(Feature selection)¶sklearn特征选择中文官方文档scikit-learn–Feature selection(特征选择)举了一些特征选择的例子...原创 2019-09-11 15:29:50 · 169 阅读 · 0 评论 -
Pseudo Labeling原理总结
1 步骤利用训练数据构建模型预测测试集的标签将预测的置信度较高的测试集标签和结果加到训练集中重新在新的合并的数据集上训练模型利用新的模型预测并提交结果参考资料Pseudo Labeling with QDA scores LB 0.969Kaggle首战Top 2%, APTOS 2019复盘总结+机器学习竞赛通用流程归纳...原创 2019-09-15 15:07:14 · 2788 阅读 · 0 评论 -
模型选择与模型融合资料整理
1.特征选择1.1 Feature Selection with Null Importances大致思路:随机目标,训练模型,得到不管目标情况下的特征重要性,例如使用lightgbm可以包括split 和gain score,训练多次,可以得到多次特征重要性的分布利用真实的目标,训练模型,得到真实的目标的重要程度,这样就可以与上面随机目标的重要程度做比较了我的理解是,真正的重要的特征...原创 2019-09-17 00:40:28 · 412 阅读 · 0 评论 -
如何做特征选择?
1 参考链接Topic 6. Feature Engineering and Feature Selectionhttps://www.kaggle.com/kashnitsky/topic-6-feature-engineering-and-feature-selection结合Scikit-learn介绍几种常用的特征选择方法https://blog.csdn.net/LY_ysys6...原创 2019-08-05 13:22:58 · 645 阅读 · 0 评论 -
Machine learning Tips阅读纪要
1 链接https://zhuanlan.zhihu.com/p/56534902?utm_source=ZHShareTargetIDMore&utm_medium=social&utm_oi=637963847940706304https://github.com/afshinea/stanford-cs-229-machine-learning/tree/master/z...转载 2019-07-23 12:50:25 · 127 阅读 · 0 评论 -
kaggle Predicting Molecular Properties 比赛 brute-force-feature-engineering 解读
1 链接https://www.kaggle.com/kernels/scriptcontent/16357888/downloadhttps://www.kaggle.com/c/champs-scalar-coupling/overview2 EDA解读与上一篇主要的区别是构造了更多的特征,总共大概有400多维,与我自己不同的是它利用xgboost做了特征选择,最后留下了比较重要的一些...翻译 2019-07-23 10:09:45 · 416 阅读 · 0 评论 -
简谈最大子数组和
1 最大子数组和问题最大子数组肯定不会有一个负的子数组前缀 这里首先将前缀置为0def fun(z): if len(z) == 0: return tem_sum = 0 final_sum = -0x3fffffff for i in range(len(z)): if tem_sum + z[i] > final_sum:原创 2017-01-13 14:10:34 · 296 阅读 · 0 评论 -
简谈快速排序
最近在看算法导论,其实想很快看过去,看到快速排序时,看着他那官方的解释,总感觉耽搁了自己看书的速度,自己理解了后想写一篇能够让其他人能够快速理解快速排序的文章,这就是写这篇博客的原因。快速排序关键思想: 取一个数(比如说一个数组最后的一个数),然后调整数组,使这个数组前半部分小于这个数,后半部分大于这个数,然后对前后半部分递归使用快速排序。 比如最开始是这个样子的原创 2016-05-20 12:17:02 · 435 阅读 · 0 评论 -
简述dfs,bfs,Dijkstra思想及区别
在做pat的时候,用dfs写了一道题的解超时,看别人的解法时,发现别人用了Dijkstra算法,瞬间自己就混乱了,因为之前也看过Dijkstra,bfs算法,但是当时居然都傻傻分不清楚了,所以决定写一篇总结一下。一:广度优先算法(BFS) 先搜索邻居,搜完邻居再搜邻居的邻居。其中俩个思想:1.双端队列不为空则循环原创 2016-05-24 15:37:52 · 14323 阅读 · 3 评论 -
mac lightgbm 安装
1 一些连接https://www.jianshu.com/p/f825f4343f10 https://blog.csdn.net/moonflyerj/article/details/790850422 报错CMake Error at /usr/local/Cellar/cmake/3.11.4/share/cmake/Modules/FindPackageHandleSt...原创 2018-07-17 12:46:35 · 1435 阅读 · 0 评论 -
图像分割 dice overlap jaccard Intersection over union区别
1 介绍Dicehttps://en.wikipedia.org/wiki/Sørensen–Dice_coefficient交集*2 除以 (并集+交集),最小为0,最大为1jaccard交集 除以 并集,最小为0,最大为1Overlap交集 除以 最小的那个面积,最小为0,最大为0Intersection over Union (IoU)true ...原创 2018-09-18 17:44:20 · 8028 阅读 · 3 评论 -
focal loss简要解读
1 focal loss作用聚焦于难训练的样本,对于简单的,易于分类的样本,给予的loss权重越低越好,对于较为难训练的样本,loss权重越好越好。简单有效2 证明2.1 交叉熵的计算交叉熵是这样子的,就算是多类交叉熵也可以按二进制交叉熵来算的。2.2 简化交叉熵(对于二进制交叉熵来说)然后假设pt并简化交叉熵:可以看出,此时Pt,值域还是0-1之间,Pt越大,越接近于1,那...原创 2018-10-09 22:46:49 · 4455 阅读 · 0 评论 -
pytorch 如何选择合适的学习率(翻译)
1.思想好的学习率,那么loss应该要下降的很快,那么可以绘制处学习率和loss的函数。例如:此时,该如何选学习率呢?选10^-2可以使训练的比较快,并且不会使梯度爆炸,10^-1可能已经太大了。2.算法假设初始lr为10^-8,最大为10,共测试N step,那么我们可以记录每经过一个step的lr和loss,其中,每次lr增加q:loss,把它平滑一下:实现代码如下:...翻译 2018-10-31 19:45:48 · 3089 阅读 · 0 评论 -
google bert 论文阅读
1.原文解读Bidirectional Encoder Representations from Transformers,bert,根据字面意思,训练的其实还是一个embedding,而且还是一个字级别的word embedding,通过这个embedding,有两种用法,一种是将其作为特征,训练特定的任务时候,不学习这些参数,通过设计特定的架构来实现不同的任务,第二种是将其作为骨干网络,然...原创 2019-01-03 21:36:19 · 1451 阅读 · 0 评论 -
tf-idf理解与使用
一、tf-idf总结是由tf和idf两部分相乘得到1.tf该个句子里面各个单词的词频,词频越高反应的是这个句子对这个词特别看重,讲的主旨应该也是跟这个有关。2.idf统计的是log10语料库句子总数/包含该词组的句子的个数log_{10}^{语料库句子总数/包含该词组的句子的个数}log10语料库句子总数/包含该词组的句子的个数,反应的是这个词组重不重要,因为这个词组在所有句子都出现的话...原创 2018-12-25 14:47:59 · 1012 阅读 · 0 评论 -
xgboost算法推导
1.推导思路目标函数目标函数泰勒展开合并正则项(遍历样本到遍历页节点)目标函数最小值(求导为0)得到参数的解2.详细推导2.1 目标函数lt=∑i=1Nl(yt,y)+γT+λ∑j=1Twj=∑i=1N[l(yt−1,y)+f(x)]+γT+λ∑j=1Twjl^{t}=\sum_{i=1}^{N}l(y^{t},y)+\gamma T + \lambda \sum_{j=1}^...原创 2019-07-15 10:29:55 · 338 阅读 · 0 评论 -
elo-eda-and-models回归模型解读(待完成)
1.题目忠诚度预估,回归模型2.解读2.1 目标分布有点奇怪翻译 2019-07-18 14:12:12 · 508 阅读 · 0 评论 -
paddlepaddle百度飞浆使用体验三----词向量训练
1 链接https://www.paddlepaddle.org.cn/documentation/docs/zh/1.5/beginners_guide/basics/word2vec/index.htmlgithub源码链接:https://github.com/PaddlePaddle/book/blob/develop/04.word2vec/train.pyPaddlePaddl...转载 2019-07-24 17:00:09 · 1577 阅读 · 0 评论 -
nl2sql_baseline项目解读(待完成)
1.目的该项目是将自然语言处理转化为mysql语句。链接:https://github.com/ZhuiyiTechnology/nl2sql_baseline首届中文NL2SQL挑战赛:https://tianchi.aliyun.com/competition/entrance/231716/introduction?spm=5176.12281949.1003.8.6f802448KX...原创 2019-07-18 00:13:43 · 2720 阅读 · 8 评论 -
lightgbm回归模型分类模型基本框架
#https://www.kaggle.com/kernels/scriptcontent/16357888/downloadimport numpy as npimport pandas as pdimport timeimport matplotlib.pyplot as pltimport seaborn as snsfrom tqdm import tqdm_notebook...翻译 2019-07-30 17:57:34 · 4348 阅读 · 0 评论 -
概率图模型学习资料整理
1 博客汇总图:【机器学习】概率图模型总结https://blog.csdn.net/u014433413/article/details/78330746漫谈 Hidden Markov Modelhttp://freemind.pluskid.org/series/hmm-tutor/隐马尔可夫模型HMM(有代码分析)https://zhuanlan.zhihu.com/p/299...原创 2019-08-03 14:51:59 · 326 阅读 · 0 评论 -
简谈动态规划
解决的问题 1.钢铁切割问题 2.0-1背包问题 3.PAT Find More Coins 总体思路 1.对于问题1,我们可以考虑钢铁切割第一刀是怎么切的,即将它分为俩个部分,对它遍历就可以找出获利最大的方案,即,Pi表示第一刀切在i,那么在加上后面的n-i的最佳切割方案Rn-i即是这种切割方案的最优解了 ,然后遍历这n中切割方案,获利最大即是我们要找的方案,并且原创 2016-08-16 11:25:25 · 402 阅读 · 0 评论