机器学习/ 数据挖掘
帅气的Ezio
这个作者很懒,什么都没留下…
展开
-
分布式深度梯度压缩DGC
这篇论文(“Deep Gradient Compression”)发现了分布式SGD中有99.9%的梯度交换都是冗余的,提出了深度梯度压缩用来减少通信带宽,同时保证了训练的精度。这里blog主要探讨该论文用的方法,以及这方法为什么work;PS: song han老师的新作还实现了在单片机256KB上训练神经网络!这实验室在这领域真是天花板一样的存在。原创 2023-03-25 12:08:29 · 219 阅读 · 0 评论 -
sklearn.impute.KNNImputer插值寻找近邻的原理
KNNImputer插值原理原创 2022-12-15 16:19:43 · 816 阅读 · 0 评论 -
pyspark 踩坑记录
pyspark原创 2022-10-24 20:42:39 · 1240 阅读 · 0 评论 -
用Pandas对不同采集周期的数据进行拼接(resample+merge)
我有两份数据, 一份是服务器功率(采集周期为15s采集一次) , 一份是服务器的cpu利用率(采集周期为1分钟);现需要把两份数据按照服务器的sn拼接在同一个 df中。过程中遇到的难点主要是时间戳转换, 时间对齐;具体方法如下:Pandas resample把时间戳变为相同的采集间隔,然后根据时间戳进行merge拼接。resample+merge代码。原创 2022-10-20 17:14:49 · 613 阅读 · 0 评论 -
数据挖掘的课程作业
git仓库1. Use two visualization techniques针对给定的数据, 结合其特性选择两个visualize的方法, 并说说从数据中找到了什么规律2. Decision tree不调用其他库函数,自行实现decision tree3. Naive bayes classifier自行实现NBC, 要求:给定数据(包含离散变量, 连续变量), 对连续变量使用两种方式求其条件概率NBC 问题简述:根据 bayes rule:P(Y∣X1,X2,X3)=P(X1,X原创 2020-12-30 20:12:47 · 302 阅读 · 0 评论