机器学习
Lord_sh
种一棵树最好的时间是十年前,其次是现在
展开
-
markdown写作note
最近写东西用markdown了,一些基本的操作记录如下:Markdown文本样式(加粗、斜体、下划线、删除线、高亮、下标/上标)https://blog.csdn.net/zgdwxp/article/details/103156841Markdown插入表格语法https://www.jianshu.com/p/2df05f279331/...原创 2021-03-12 15:31:28 · 249 阅读 · 0 评论 -
对训练样本分布不均的思考
背景最近自己做一个游戏激活&付款预测的比赛,正负样本极其不均衡正样本:51969 负样本:87529147867(875亿+)和同事讨论之后+查资料之后,对正负样本不均有了一些新的理解。最后的理解样本的正负不均衡和模型学不好没有一定的联系。对于正负样本不均衡,但是正负样本都足够多的情况,模型还是可以学好的。可能数量巨多的那一类会过拟合。对于某类样本不够多的情况,需要提高该类权重或者新增该类样本。对于某类样本绝对多,并且噪声大的情况,对该类样本负采样,会减...原创 2020-11-21 10:29:18 · 1972 阅读 · 0 评论 -
tf.nn.fixed_unigram_candidate_sampler解释
最近看GraphSage的代码,发现了一个函数tf.nn.fixed_unigram_candidate_sampler理解这个函数的难点主要在:num_true、range_max, 这两个参数上,直接上代码吧import tensorflow as tfdef test1(): vec = tf.constant([[1, 2, 3, 4, 6]], dtype=tf.int64) # vec = tf.reshape(vec, [-1, 1]) """ .原创 2020-10-28 10:06:09 · 772 阅读 · 0 评论 -
online learning
最近有在上线 ftrl; 有篇文章先markhttps://tech.meituan.com/2016/04/21/online-learning.html原创 2020-10-10 14:27:53 · 138 阅读 · 0 评论 -
对xgboost、lightgbm面向面试题的理解
intro:最近在公司做项目,用xgboost、lightgbm分析特征重要性,做个baseline,正好写下对xgboost和lightgbm最新的理解Chap01:正好看到一道面试题:我面试候选人时必问的一个问题GBDT中的梯度是什么对什么的梯度? 给一个有m个样本,n维特征的数据集,如果用LR算法,那么梯度是几维? 同样的m*n数据集,如果用GBDT,那么梯度是几维?m维?n维?m*n维?或者是与树的深度有关?或者与树的叶子节点的个数有关?就这样一个简单的问题,面试过2位数的原创 2020-08-13 19:34:30 · 554 阅读 · 0 评论 -
scikit-learn 数据预处理
https://www.jianshu.com/p/580688e4a069原创 2020-07-29 10:12:44 · 677 阅读 · 0 评论 -
pandas数据处理实战记录
1. 不要用drop来删除dataframe中的某列,直接del df[col]原创 2020-07-13 20:51:34 · 163 阅读 · 0 评论 -
微平均 宏平均 微平均(准确率、召回率、f1-score相等) 以及 TP、TN、FP、FN的理解
一种计算方法是把所有类别的一次性都考虑进来,计算类别预测的准确率。(微平均)另外还有一种是对每个类别分开考虑,计算单独每个类别的准确率,最后再进行算术平均得到该测试集的准确率。(宏平均)其中微平均 recall = precise = f1-score 无论是二分类还是多分类, 因为要统计所有的类别, 所以TP为各个类别分对的数目的总和, FP= FN 为各个类别分错数目的总和,recall = precise = 正确分类 / (正确分类 + 错误分类)https://zhuanlan..原创 2020-07-08 14:54:55 · 3704 阅读 · 0 评论 -
SettingwithCopyWarning: 如何在pandas中解决这个问题
中文全文翻译:https://zhuanlan.zhihu.com/p/41202576英文原文:https://www.dataquest.io/blog/settingwithcopywarning/原创 2020-06-19 16:31:13 · 153 阅读 · 0 评论 -
第二届易观算法大赛——性别年龄预测
https://www.tinymind.cn/competitions/43一、 数据类型(1) 设备数据:每个设备上的应用安装列表,设备应用名都进行了hash处理【deviceid_packages.tsv】deviceid 安装设备id列表 00009270c4ec26e1d76f5d86847009c9 1896072db9ce6406febfc17f681c2086,90cb852cf345e04d508fe03f74089183,8c8544b6c129ad4a431原创 2020-06-17 10:47:33 · 814 阅读 · 0 评论 -
[机器学习] 调参工具
一、 种类网格搜索、随机搜索、贝叶斯搜索二、Hyperopthttps://www.jianshu.com/p/35eed1567463原创 2020-06-14 17:37:40 · 247 阅读 · 0 评论 -
SVM hinge loss 理解
常见的损失函数(loss function)总结 - yyHaker的文章 - 知乎 https://zhuanlan.zhihu.com/p/58883095转载 2020-03-26 09:21:52 · 385 阅读 · 0 评论 -
jupyter notebook 没有创建的conda kernel
进入对应的虚拟环境,然后 conda install nb_conda 就可以了原创 2019-10-15 17:30:31 · 511 阅读 · 0 评论 -
数据挖掘竞赛资料
数据挖掘比赛通用框架http://www.cbdio.com/BigData/2016-08/16/content_5187960.htm手把手带你入门和实践特征工程的万字笔记(附代码下载)https://mp.weixin.qq.com/s?__biz=MzIyNjM2MzQyNg==&mid=2247486476&idx=1&sn=dad421fd939dd...原创 2019-09-30 10:49:44 · 235 阅读 · 0 评论 -
Learning To Rank 三种方法
文章地址https://blog.csdn.net/huagong_adu/article/details/407103051. RankNet2. LambdaRanklambda 即 3. LambdaMart原创 2018-10-08 19:10:12 · 877 阅读 · 0 评论 -
CRF++
CRF++是CRF算法的一个实现。它最重要的功能我认为是采用了特征模板。这样就可以自动生成一系列的特征函数,而不用我们自己生成特征函数,我们要做的就是寻找特征,比如词性等。 crf 首先需要一些预备知识,如对crf中转移特征和位置特征的理解。 首先需要知道我们的观测序列x即输入的句子是完全已知的,可以得到任意位置的观测值,特征也是从观测序列中得出。所以在李航的统...转载 2019-01-03 19:07:50 · 2544 阅读 · 0 评论 -
五一干货资料整理,在学习上的劳动才是最好的劳动! (包括:ML、DL、RL、Paper、NLP、CV、KG等)
https://mp.weixin.qq.com/s?__biz=MzI3ODgwODA2MA==&mid=2247486557&idx=1&sn=5e2575a87a25e553408cfa5d54ffa4fe&chksm=eb5018cedc2791d82b5ed79d6d4ff5ba0ffe7b7258b852c2a5b16ddf4b649184597df23...转载 2019-09-27 14:42:34 · 805 阅读 · 0 评论 -
[cs224n-2017] Assignment 1
q2_neural.py1. 在算cost和CE(cross entropy)反向传播的时候,要除以batch的大小,即把一个batch看成一个样本 cost = np.sum(-np.log(y[labels == 1])) / data.shape[0] ### YOUR CODE HERE: backward propagation #dz2 = (y - l...原创 2019-06-16 17:03:28 · 405 阅读 · 0 评论 -
[cs224n cs231n]我关于求导的维度的理解
例如: 形状为(M, Dy),为(M, Dx),W为(Dx, Dy),b为(M, Dy)反向传播更新参数的时候,需要x+dx,所以x或dx的形状相同由下游反向传播之后形状为 (M, Dy)形状为 (M, Dx)形状为(Dx, Dy)...原创 2019-06-16 17:30:34 · 317 阅读 · 0 评论 -
sklearn: TfidfVectorizer 中文处理及一些使用参数
https://blog.csdn.net/blmoistawinde/article/details/80816179转载 2019-07-01 15:58:20 · 461 阅读 · 0 评论 -
[tensorflow] load restore 网络结构、参数
【tensorflow】保存模型、再次加载模型等操作https://blog.csdn.net/liuxiao214/article/details/79048136(原)tensorflow保存模型及载入保存的模型https://www.cnblogs.com/darkknightzh/p/7198773.html【tensorflow】tf.train.get_checkpo...原创 2019-07-10 16:23:03 · 520 阅读 · 0 评论 -
tensorflow 栈式双向RNN的生成
https://www.cnblogs.com/silence-tommy/p/8058333.htmltf.reverse 或 tf.reverse_sequence具体可看tf.nn.bidirectional_dynamic_rnn()源码实现with vs.variable_scope(scope or "bidirectional_rnn"): # Forward di...原创 2019-07-06 10:36:45 · 311 阅读 · 0 评论 -
[tensorflow高级API使用] Dataset
https://tensorflow.google.cn/guide/datasets#consuming_numpy_arrayshttps://blog.csdn.net/weixin_42806169/article/details/89764602https://blog.csdn.net/qq_16234613/article/details/81703228上篇的总结(ht...原创 2019-07-06 13:23:49 · 219 阅读 · 0 评论 -
[tensorflow] placeholder、 Variable、Tensor的 reuse、get_by_name问题以及不同
https://cloud.tencent.com/developer/ask/142809/answer/250540你可以通过在名称后添加“/”来强制重用范围,即: tf.variable_scope("foo/", reuse=True):但是,这不会解决你的问题。在变量的情况下,调用tf.Variable将始终创建一个新变量,而调用tf.get_variable将重用它但是...原创 2019-07-11 19:13:17 · 455 阅读 · 0 评论 -
[paper]Transformer 相关论文阅读
[paper]Transformer-XL: Attentive Language Models(venv2.7) mi@mi-OptiPlex-7060:~/shenhao/study/transformer-xl/tf$ bash scripts/enwik8_base_gpu.sh train_dataProducing dataset...building vocab with ...原创 2019-08-20 20:41:48 · 585 阅读 · 0 评论 -
transformer结构有意义的片段
哈工大SCIR lab带你从头开始了解Transformerhttps://mp.weixin.qq.com/s?__biz=MzI3ODgwODA2MA==&mid=2247487082&idx=1&sn=5527fd63eeb6054ce2a1868d981d3327&chksm=eb501af9dc2793ef2962a81b924edd5c7a53e63...原创 2019-09-02 13:09:19 · 385 阅读 · 0 评论 -
[综] 训练集(train set) 验证集(validation set) 测试集(test set)
转自 https://www.cnblogs.com/xfzhang/archive/2013/05/24/3096412.html在有监督(supervise)的机器学习中,数据集常被分成2~3个,即:训练集(train set) 验证集(validation set) 测试集(test set)。http://blog.sina.com.cn/s/blog_4d2f6cf20100转载 2018-01-09 18:47:23 · 315 阅读 · 0 评论