- 博客(13)
- 资源 (8)
- 收藏
- 关注
原创 使用谷歌 colab 平台来训练机器学习模型、深度学习模型
前言免费的机器学习资源平台,自己电脑跑不动的模型,可以尝试在谷歌colab平台跑实验,不过感觉还是比不上阿里天池的机器资源,人家可是16G的内存呀!不过感觉人家这个更加方便。谷歌云盘谷歌这个colab是基于云盘的,你的所有代码都在云盘里,如果你要编辑代码,则使用谷歌的...
2019-08-29 09:41:09 4871 3
原创 美团 Leaf分布式ID解决方案
前言看了一下美团的分布式ID的解决方案,谈谈自己的理解和思考。其中参考博客就是美团的分布式ID leaf的链接,可以直接跳转去看。Leaf-segment 数据库方案这里采用的是从数据库读取,每次从数据库里读取id起始点和步长,比如读取id为1000,步长为1000,那么可以生成的分布式id范围为1000 - 2000 。但不仅仅是这么简单的数字,一般形式如下:biz_tag + id...
2019-08-28 21:47:56 2213 4
原创 聚类算法总结 - 优缺点对比
前言聚类算法是一种无监督的算法,由于不需要训练集,算法简单快速,引用在一些工程里比较简单突出,今天来了解一下聚类算法。k-means算法(k均值算法)算法步骤:(1)随机选取 K 个点,作为 K 类的聚类中心,用 KiK_iKi表示(2)遍历所有的数据点 PjP_jPj,通过计算距离,找到距离 PjP_jPj 最近的聚类中心点 KiK_iKi,此时可以说第 j 个数据属于...
2019-08-27 09:55:19 50926
原创 交叉验证 (Cross-Validation) - CV
交叉验证这不是某一个方法的名称,而是一类方法的统称,主要形式是把训练集分成两部分,一部分是用来训练模型,另一部门用来验证模型,相当于一份数据集被分为训练集和验证集,这样做主要是因为数据集中可能会有一些样本不平衡导致模型过拟合,增加验证集来验证模型,通过这种方法来了解模型的泛化能力。普通验证方法按比例将数据集划分,比如8:2、7:3这样的比例将数据集划分,大的一头数据集用来训练,少的数据用来验...
2019-08-26 22:07:41 4392
原创 java stream流处理技巧汇总
Mapmap.entrySet().stream().map(Map.Entry::getValue)stream引用 Box one = new Box(); one.setId(1); one.setName("one"); Box two = new Box(); two.setId(2); tw...
2019-08-21 17:39:37 1966
原创 机器学习 评测指标 - 问题思考
这些问题大家可以看下:问题一 评价的指标中如何结合着来看?指标与指标间会有什么样的关系?问题二 如何通过各个指标选择最好的模型?本业务中该选择那种评价指标最合适?不同的评价指标的选择场景?问题三 多分类的情况下,混淆矩阵的召回率,精准率怎么表示比较友好?问题四 二分类问题对其中一个类别准确率较低的原因是什么,是由于上采样破坏了原数据的分布吗?一般有什么方法解决?问题五 模型评估是算的准确...
2019-08-15 22:53:58 315
原创 java - 模板 方法 - 简单讲解
模板方法可以用来干嘛?问题: 有3个方法:A、B、C三个方法,我想先执行A ,在执行B ,最后执行C,并且想在子类中重构B方法,所以问题就来了,我既想保证3个方法的执行顺序,又想在不同子类中重写B方法,有什么解决方法呢?这就是模板方法,定义:public abstract class ABC{ /** * 模板方法 */ public void main(...
2019-08-12 21:31:04 410
原创 数据挖掘 - task 3: 各类分类算法
前言用逻辑回归、svm和决策树;随机森林和XGBoost进行模型构建,评分方式任意,如准确率等。决策树随机森林XGBoost参考博客
2019-08-11 12:51:53 248
原创 特征选择 - 一些问题思考
前言参加了一个学习小组,大家一起思考问题,正好讨论特征选择的问题,就记录一下,很多问题的思考还是比较好的,希望可以帮助大家,也感谢一些讨论的小伙伴。问题:特征选择的方法特征选择时有过滤法、包装法,集成法,这些方法在应用的时候有没有什么特别的应用场景,还是随机选择?(1)过滤法:有方差筛选、相关系数、卡方检验和互信息等,方差筛选可以剔除方差为0的无用信息;相关系数主要用于监督学习中,设定阈...
2019-08-10 11:15:29 711
原创 Datawhale -数据挖掘 - task2:特征衍生+特征挑选
任务说明特征衍生特征挑选:分别用IV值和随机森林等进行特征选择……以及你能想到特征工程处理特征衍生IV值随机森林参考博客
2019-08-08 09:53:31 1220
原创 数据清洗遇到的问题思考
因为本次任务是基础的数据预处理和数据集划分,所以本次讨论不涉及特征工程和模型相关的。问题一 缺失数据有很多人问到了缺失值处理的问题。统一汇总提问:为什么需要处理缺失值?确实值会影响模型训练,某些特征值确实,有可能使得该条样本完全是负样本,影响模型。缺失率大于多少时应当抛弃该特征?一半比例的数据可以丢弃缺失值填充有哪些方法?缺失值填充方法:特殊值、均值、中位数、众数等...
2019-08-06 22:37:00 3592
原创 SOA:微服务 & ESB 以及如何选择
前言故事要从一个问题开始:我们能不能把需要的服务事先申明好,然后底层依次来调用。举个例子,有A、B、C三个服务,如果我想调用B、C服务,那我肯定要写一套逻辑,先调用B再调用C,这段逻辑写好了,我下次想先调用C再调用B,就要改代码了,我能不能有一个类,我set(B).set© 就可以了,它能去识别这个顺序,我下次也可以set©.set(B) ,这样就可以通过set顺序来改变策略,把这个思想说出来后...
2019-08-05 21:48:42 525
【新人赛】快来一起挖掘幸福感!
2019-07-08
PotPlayer64位v.1.7.13622
2018-08-08
asp.net 视频播放、利用flexpaper+swtools实现文档在线浏览
2015-05-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人