算法学习总结
HxShine
这个作者很懒,什么都没留下…
展开
-
Focal Loss与GHM 理解与使用
一、理解5分钟理解Focal Loss与GHM——解决样本不平衡利器https://zhuanlan.zhihu.com/p/80594704二、使用GHM论文理解及实现https://zheng-yuwei.github.io/2019/07/08/13_GHM%E8%AE%BA%E6%96%87%E7%90%86%E8%A7%A3%E5%8F%8A%E5%AE%9E%E7%8E%B0/ghm-kerashttps://github.com/wangbingnan136/ghm-ke原创 2020-11-09 16:34:22 · 1444 阅读 · 0 评论 -
bagging 随机森林 boost adboost gbdt xgboost lightgbm思想与不同,以及优缺点
1.bagging特点:数据有放回采样分类最终投票回归最终平均优点可并行,提升泛化能力缺点可能欠拟合https://www.cnblogs.com/hugechuanqi/p/10554156.html2.随机森林特点:数据有放回采样增加了随机选择特征分类最终投票回归最终平均优点可并行,提升泛化能力缺点可能欠拟合https://www.cnblogs....原创 2020-04-28 11:56:16 · 1125 阅读 · 0 评论 -
从Attention到Transformer再到bert的理解
1.最原始的attention[1] Lin, Zhouhan, et al. ”A structured self-attentive sentence embedding.” arXiv preprint arXiv:1703.03130 (2017).2. attention is all you needQKV:其实也是一个attention,求出来的还是权重,只是计算的方式不...原创 2020-04-23 17:27:02 · 723 阅读 · 0 评论 -
lightgbm回归模型分类模型基本框架
#https://www.kaggle.com/kernels/scriptcontent/16357888/downloadimport numpy as npimport pandas as pdimport timeimport matplotlib.pyplot as pltimport seaborn as snsfrom tqdm import tqdm_notebook...翻译 2019-07-30 17:57:34 · 4342 阅读 · 0 评论 -
概率图模型学习资料整理
1 博客汇总图:【机器学习】概率图模型总结https://blog.csdn.net/u014433413/article/details/78330746漫谈 Hidden Markov Modelhttp://freemind.pluskid.org/series/hmm-tutor/隐马尔可夫模型HMM(有代码分析)https://zhuanlan.zhihu.com/p/299...原创 2019-08-03 14:51:59 · 325 阅读 · 0 评论 -
kaggle Predicting Molecular Properties 比赛 molecular-properties-eda-and-modelsEDA解读
1 原文链接https://www.kaggle.com/artgor/molecular-properties-eda-and-modelshttps://www.kaggle.com/c/champs-scalar-coupling/overview2 解读2.1 基本分布特点index0和index1的分布很不一样type分布也很不均匀,3个很多,3个很少,2个中频不同t...翻译 2019-07-22 10:41:33 · 420 阅读 · 0 评论 -
kaggle Predicting Molecular Properties 比赛 brute-force-feature-engineering 解读
1 链接https://www.kaggle.com/kernels/scriptcontent/16357888/downloadhttps://www.kaggle.com/c/champs-scalar-coupling/overview2 EDA解读与上一篇主要的区别是构造了更多的特征,总共大概有400多维,与我自己不同的是它利用xgboost做了特征选择,最后留下了比较重要的一些...翻译 2019-07-23 10:09:45 · 415 阅读 · 0 评论 -
Machine learning Tips阅读纪要
1 链接https://zhuanlan.zhihu.com/p/56534902?utm_source=ZHShareTargetIDMore&utm_medium=social&utm_oi=637963847940706304https://github.com/afshinea/stanford-cs-229-machine-learning/tree/master/z...转载 2019-07-23 12:50:25 · 125 阅读 · 0 评论 -
如何做特征选择?
1 参考链接Topic 6. Feature Engineering and Feature Selectionhttps://www.kaggle.com/kashnitsky/topic-6-feature-engineering-and-feature-selection结合Scikit-learn介绍几种常用的特征选择方法https://blog.csdn.net/LY_ysys6...原创 2019-08-05 13:22:58 · 640 阅读 · 0 评论 -
机器学习分类问题资料和代码整理
1. 评价函数机器学习分类器模型评价指标Imbalanced data & why you should NOT use ROC curve查看sklearn评价参数:sorted(sklearn.metrics.SCORERS.keys())2.模型Multiclass classification using scikit-learn2.1常见模型和库# Essentia...原创 2019-08-22 16:03:04 · 700 阅读 · 0 评论 -
视频描述生成vedeo caption资料整理(待完成)
代码1. xiadingZ/video-caption.pytorch2.pochih/Video-Cap3.JaywongWang/DenseVideoCaptioningdataset:Dense-Captioning Events in Videos,activitynet_c3d_fc7_stride_64_frame.hdf54.scopeInfinity/Video2D...原创 2019-08-22 16:35:35 · 1229 阅读 · 0 评论 -
特征选择资料整理
特征选择资料整理机器学习中,有哪些特征选择的工程方法?比较详细,包括大部分分类问题的特征选择和利用模型模型特征选择的方法。1.13. 特征选择(Feature selection)¶sklearn特征选择中文官方文档scikit-learn–Feature selection(特征选择)举了一些特征选择的例子...原创 2019-09-11 15:29:50 · 167 阅读 · 0 评论 -
nl2sql_baseline项目解读(待完成)
1.目的该项目是将自然语言处理转化为mysql语句。链接:https://github.com/ZhuiyiTechnology/nl2sql_baseline首届中文NL2SQL挑战赛:https://tianchi.aliyun.com/competition/entrance/231716/introduction?spm=5176.12281949.1003.8.6f802448KX...原创 2019-07-18 00:13:43 · 2714 阅读 · 8 评论 -
paddlepaddle百度飞浆使用体验二----中文文本分类
1 相关链接ERNIE代码:https://github.com/PaddlePaddle/ERNIE/tree/develop/ERNIE2 具体使用2.1 使用步骤下载数据:下载模型(含配置文件及词典)以及任务数据。解压模型和任务数据,开始训练,执行bash script/run_ChnSentiCorp.sh,附上修改后的run_ChnSentiCorp.shset -e...原创 2019-07-20 10:19:51 · 2802 阅读 · 0 评论 -
算法学习--2 俩端指针问题
一 题目 1.给定一个非负数的数组,代表一个容器。例如数组[0,1,0,2,1,0,1,3,2,1,2,1],如果用这个容器接水的话,请问可以接多少水? 2.给定一个非负数的数组,数组中的每个值代表一个柱子的高度,柱子的宽度是 1。两个柱子之间可以围成一个面积,规定:面积=两根柱子的最小值*两根柱子之间的距离。比如数组[3,4,2,5]。3 和 4 之间围成的面积为 0,因为两个原创 2016-11-11 23:17:19 · 381 阅读 · 0 评论 -
算法学习--3 最大子数组和以及进阶问题
一 子数组最大和3 -2 1 -6 3 2 -1 3 用cur记录累加和,累加和为负数的话就清零,否则一直加下去,同时每次用result于cur比较,记录cur出现过的最大值。例如上面的例子cur更新和result更新结果如下: cur: 3 1 2 0 3 5 4 7 result 3 3 3 3 3 5 5 7 最后返回result即可。 原理解释:假设最大和子数组为T,那么他前原创 2016-11-15 00:18:46 · 427 阅读 · 0 评论 -
算法学习--4 设置一个有getMin功能的栈之栈的升级版(待修改)
题目一栈先进后出,设置一个有getMin功能的栈,要求getMin的操作时间复杂度也为O(1)解题思路用俩个栈,一个栈专门保存这个状态的最小值就行,这样push或者pop后的每个状态的最小值都能被O(1)的找出来。 题目二原创 2016-11-24 00:04:06 · 313 阅读 · 0 评论 -
深度学习图像分割整理
1 综述Semantic Segmentation using Fully Convolutional Networks over the years Jun 1, 2017https://meetshah1995.github.io/semantic-segmentation/deep-learning/pytorch/visdom/2017/06/01/semantic-segmen...原创 2018-08-22 18:05:30 · 3234 阅读 · 1 评论 -
反卷积网络的棋盘格现象
https://distill.pub/2016/deconv-checkerboard/1 现象通过神经网络生成的图片,放大了看会有棋盘格的现象2 分析混叠现象造成的,反卷积时,到stride和ksize 不能整除时,就会有这种现象,二维图像的时候更显著。神经网络虽然能学习,可以抵消一部分现象,但是会造成这个模型不鲁棒。常见的有三种方法上采样,反卷积,nn插值,双线...原创 2018-09-09 15:35:32 · 3693 阅读 · 0 评论 -
图像分割 dice overlap jaccard Intersection over union区别
1 介绍Dicehttps://en.wikipedia.org/wiki/Sørensen–Dice_coefficient交集*2 除以 (并集+交集),最小为0,最大为1jaccard交集 除以 并集,最小为0,最大为1Overlap交集 除以 最小的那个面积,最小为0,最大为0Intersection over Union (IoU)true ...原创 2018-09-18 17:44:20 · 8020 阅读 · 3 评论 -
cross entropy loss函数优点
能衡量细微的差异。凸优化函数,便于利用梯度下降方法找到最优解。回归的时候一般可能用mse参考:http://jackon.me/posts/why-use-cross-entropy-error-for-loss-function/https://blog.csdn.net/xg123321123/article/details/80781611...原创 2018-10-09 19:56:08 · 2981 阅读 · 0 评论 -
pytorch 如何选择合适的学习率(翻译)
1.思想好的学习率,那么loss应该要下降的很快,那么可以绘制处学习率和loss的函数。例如:此时,该如何选学习率呢?选10^-2可以使训练的比较快,并且不会使梯度爆炸,10^-1可能已经太大了。2.算法假设初始lr为10^-8,最大为10,共测试N step,那么我们可以记录每经过一个step的lr和loss,其中,每次lr增加q:loss,把它平滑一下:实现代码如下:...翻译 2018-10-31 19:45:48 · 3084 阅读 · 0 评论 -
tf-idf理解与使用
一、tf-idf总结是由tf和idf两部分相乘得到1.tf该个句子里面各个单词的词频,词频越高反应的是这个句子对这个词特别看重,讲的主旨应该也是跟这个有关。2.idf统计的是log10语料库句子总数/包含该词组的句子的个数log_{10}^{语料库句子总数/包含该词组的句子的个数}log10语料库句子总数/包含该词组的句子的个数,反应的是这个词组重不重要,因为这个词组在所有句子都出现的话...原创 2018-12-25 14:47:59 · 1006 阅读 · 0 评论 -
Dureader数据集分析
paper链接:https://arxiv.org/pdf/1711.05073.pdf1.分布来自:https://zhuanlan.zhihu.com/p/364151042.dureader的答案是来自于原文的修改,而不只是原文,以编辑距离来衡量。3.对yes or no 问题的效果在bleu和rouge评价指标下反而效果不怎么好。4.实际数据格式4.1 descripti...转载 2019-03-10 13:35:21 · 3966 阅读 · 0 评论 -
paddlepaddle百度飞浆使用体验三----词向量训练
1 链接https://www.paddlepaddle.org.cn/documentation/docs/zh/1.5/beginners_guide/basics/word2vec/index.htmlgithub源码链接:https://github.com/PaddlePaddle/book/blob/develop/04.word2vec/train.pyPaddlePaddl...转载 2019-07-24 17:00:09 · 1573 阅读 · 0 评论 -
面试题学习总结--(1)最长递增子序列及其进阶版
本系列是看了牛课网老师左程云http://www.nowcoder.com/live/11的BAT面试算法精品课的学习记录,我争取用我能做到的最容易理解的方式用文字表达出来,欢迎一起学习~1. 最长递增子序列O(n^2)版例如:求 2 1 6 4 5 2 7 4 这8个元素的最长递增子序列的长度是多少?无脑dp: 1.用h[i],记录第i个位置的最长子序列的个数,例如h[7]就是上述问题的原创 2016-11-05 14:51:50 · 874 阅读 · 0 评论