2019年08月_予亭

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创使用谷歌 colab 平台来训练机器学习模型、深度学习模型

前言免费的机器学习资源平台，自己电脑跑不动的模型，可以尝试在谷歌colab平台跑实验，不过感觉还是比不上阿里天池的机器资源，人家可是16G的内存呀！不过感觉人家这个更加方便。谷歌云盘谷歌这个colab是基于云盘的，你的所有代码都在云盘里，如果你要编辑代码，则使用谷歌的...

2019-08-29 09:41:09 4871 3

原创美团 Leaf分布式ID解决方案

前言看了一下美团的分布式ID的解决方案，谈谈自己的理解和思考。其中参考博客就是美团的分布式ID leaf的链接，可以直接跳转去看。Leaf-segment 数据库方案这里采用的是从数据库读取，每次从数据库里读取id起始点和步长，比如读取id为1000，步长为1000，那么可以生成的分布式id范围为1000 - 2000 。但不仅仅是这么简单的数字，一般形式如下：biz_tag + id...

2019-08-28 21:47:56 2213 4

原创聚类算法总结 - 优缺点对比

前言聚类算法是一种无监督的算法，由于不需要训练集，算法简单快速，引用在一些工程里比较简单突出，今天来了解一下聚类算法。k-means算法（k均值算法）算法步骤：（1）随机选取 K 个点，作为 K 类的聚类中心，用 KiK_iKi表示（2）遍历所有的数据点 PjP_jPj，通过计算距离，找到距离 PjP_jPj 最近的聚类中心点 KiK_iKi，此时可以说第 j 个数据属于...

2019-08-27 09:55:19 50926

交叉验证这不是某一个方法的名称，而是一类方法的统称，主要形式是把训练集分成两部分，一部分是用来训练模型，另一部门用来验证模型，相当于一份数据集被分为训练集和验证集，这样做主要是因为数据集中可能会有一些样本不平衡导致模型过拟合，增加验证集来验证模型，通过这种方法来了解模型的泛化能力。普通验证方法按比例将数据集划分，比如8:2、7:3这样的比例将数据集划分，大的一头数据集用来训练，少的数据用来验...

2019-08-26 22:07:41 4392

原创 java stream流处理技巧汇总

Mapmap.entrySet().stream().map(Map.Entry::getValue)stream引用 Box one = new Box(); one.setId(1); one.setName("one"); Box two = new Box(); two.setId(2); tw...

2019-08-21 17:39:37 1966

原创机器学习评测指标 - 问题思考

这些问题大家可以看下：问题一评价的指标中如何结合着来看？指标与指标间会有什么样的关系？问题二如何通过各个指标选择最好的模型？本业务中该选择那种评价指标最合适？不同的评价指标的选择场景？问题三多分类的情况下，混淆矩阵的召回率，精准率怎么表示比较友好？问题四二分类问题对其中一个类别准确率较低的原因是什么，是由于上采样破坏了原数据的分布吗？一般有什么方法解决？问题五模型评估是算的准确...

2019-08-15 22:53:58 315

原创 java - 模板方法 - 简单讲解

模板方法可以用来干嘛？问题：有3个方法：A、B、C三个方法，我想先执行A ，在执行B ，最后执行C，并且想在子类中重构B方法，所以问题就来了，我既想保证3个方法的执行顺序，又想在不同子类中重写B方法，有什么解决方法呢？这就是模板方法，定义：public abstract class ABC{ /** * 模板方法 */ public void main(...

2019-08-12 21:31:04 410

原创数据挖掘 - task 3: 各类分类算法

前言用逻辑回归、svm和决策树；随机森林和XGBoost进行模型构建，评分方式任意，如准确率等。决策树随机森林XGBoost参考博客

2019-08-11 12:51:53 248

原创特征选择 - 一些问题思考

前言参加了一个学习小组，大家一起思考问题，正好讨论特征选择的问题，就记录一下，很多问题的思考还是比较好的，希望可以帮助大家，也感谢一些讨论的小伙伴。问题：特征选择的方法特征选择时有过滤法、包装法，集成法，这些方法在应用的时候有没有什么特别的应用场景，还是随机选择？(1)过滤法：有方差筛选、相关系数、卡方检验和互信息等，方差筛选可以剔除方差为0的无用信息；相关系数主要用于监督学习中，设定阈...

2019-08-10 11:15:29 711

原创 Datawhale -数据挖掘 - task2:特征衍生+特征挑选

任务说明特征衍生特征挑选：分别用IV值和随机森林等进行特征选择……以及你能想到特征工程处理特征衍生IV值随机森林参考博客

2019-08-08 09:53:31 1220

原创数据清洗遇到的问题思考

因为本次任务是基础的数据预处理和数据集划分，所以本次讨论不涉及特征工程和模型相关的。问题一缺失数据有很多人问到了缺失值处理的问题。统一汇总提问：为什么需要处理缺失值？确实值会影响模型训练，某些特征值确实，有可能使得该条样本完全是负样本，影响模型。缺失率大于多少时应当抛弃该特征？一半比例的数据可以丢弃缺失值填充有哪些方法？缺失值填充方法：特殊值、均值、中位数、众数等...

2019-08-06 22:37:00 3592

原创 Datawhale -数据挖掘 - task 1 : 数据探索与分析

前言参考博客

2019-08-06 19:54:58 328

原创 SOA：微服务 & ESB 以及如何选择

前言故事要从一个问题开始：我们能不能把需要的服务事先申明好，然后底层依次来调用。举个例子，有A、B、C三个服务，如果我想调用B、C服务，那我肯定要写一套逻辑，先调用B再调用C，这段逻辑写好了，我下次想先调用C再调用B，就要改代码了，我能不能有一个类，我set(B).set© 就可以了，它能去识别这个顺序，我下次也可以set©.set(B) ，这样就可以通过set顺序来改变策略，把这个思想说出来后...

2019-08-05 21:48:42 525

【新人赛】快来一起挖掘幸福感！

【新人赛】快来一起挖掘幸福感!https://tianchi.aliyun.com/competition/entrance/231702/information

2019-07-08

PotPlayer64位v.1.7.13622

有一次需要找个视频播放软件，发现这个PotPlayer真的太好用了，但是下载太慢了，官网下载就很缓慢，其他国内网站的资源很流氓，会有其他乱七八糟的软件绑架，网络及其不稳定，好不容易下载好了，分享到csdn中，方便大家下载。

2018-08-08

时间轴插件

时间轴插件，可以展示数据

2017-07-20

捕鱼达人文档和源码

2015-12-27

asp.net 视频播放、利用flexpaper+swtools实现文档在线浏览

2015年本人的毕业设计，关于网页设计，其中有几个功能不错，其中是一个视频播放功能，然后就是文档转化为PDF然后转化为SWF最后在网页上浏览，代码没带数据库，但是有基础的人应该可以看懂，功能可以是实现，我自己测试过，你们要改数据库的连接语句，当然也是总结论坛大神的结晶，感谢大神的指导，5分不多，希望大家体贴我的努力。

2015-05-22

类似QQ的局域网聊天系统

利用VC++编写的关于局域网聊天系统，利用SOCKET编程，点对点利用TCP，广播采用UDP。

2015-01-04

超市管理系统

方便超市管理，有进货售货功能，还有经销商信息，员工信息，商品信息。界面还行，可自行修改。