- 博客(30)
- 资源 (116)
- 收藏
- 关注
原创 TensorFlow:实现CNN对MNIST数据集分类 与 朴素贝叶斯训练并生成MNIST样本python实现 与 LSTM 的 MNIST 分类 + 可视化
朴素贝叶斯生成新的样本数据,主要是通过训练时计算的先验概率p(y)和似然p(x|y)生成。首先会通过先验概率大小随机生成第c类,然后通过c类的似然概率大小,生成每一维的数据,最后就得到了新的样本。数据集加载方法load_mnist可以自行修改,这里用到了mnist-original.mat文件需要下载后放入当前路径的datasets/mldata下。from sklearn.datasets import fetch_mldatafrom collections import Counterimp
2020-12-25 21:07:58 712
原创 WIN10系统安装gym、mujoco以及Atari
本文涉及在windows10系统下gym、mujoco以及Atari的安装。系统:win10教育版python版本:3.6.8anconda版本:3.5.4gym版本:0.9.1mujoco_py版本:0.5.7mjpro版本:131第一步:创建conda环境ctrl+r 输入 cmd 确认conda create -n py36 python==3.6.8conda install numpy==1.16.0activate py36第二步:安装g..
2020-12-24 13:45:42 1128
转载 win10安装mujoco一点细节
2 人赞同了该文章本文参考浪子:WIN10系统安装gym、mujoco以及Atarizhuanlan.zhihu.com补充一点细节添加环境变量,本人根据github提示,只添加了两个环境变量即可,附上GitHub网址https://github.com/openai/mujoco-pygithub.com也就是说需要添加名为MUJOCO_PY_MJKEY_PATH和MUJOCO_PY_MUJOCO_PATH的环境变量,其中一个是mujoco官方提供的mjkey的路径,另.
2020-12-24 13:17:17 1063 1
转载 win10安装mujoco150出现distutils.errors.错误
win10安装mujoco150出现distutils.errors.win10安装mujoco150可以按照这位的文章来https://blog.csdn.net/weixin_44377470/article/details/104910010。在python中import mujoco_py时出现distutils.errors.之类的错误,那就在pip install -r requirements.txtpip install -r requirements.dev.txt之后不使用pi
2020-12-24 13:03:04 515
转载 Mujoco以及mujoco_py在win10下的从零开始无脑安装法
感觉大部分blog都是关于linux/macos的,这篇博文来记录一下mujoco以及mujocopy在win10下的安装法吧1. 下载mujoco下载网址:https://www.roboti.us/index.html这里注意一定要下载150的版本。因为对于windows用户,mujoco_py是只支持150的。(标黄部分)win+R CMD打开命令行,输入mkdir .mujoco然后将解压好的mujoco.zip 放进来,最后会是 C:\Users\evaljy\.
2020-12-24 10:57:20 1423 1
原创 用于心电疾病诊断的深度学习模型库
用于心电疾病诊断的深度学习模型库github: https://github.com/hzzhangqf0558/ECG_NetsBaseline model collection of deep learning applied into ECGs. Those baseline models include 1D-ResNet, 1D-DenseNet, 1D-SE_ResNet, 1D-ResNext,1D-SE_ResNetV2, 1D-SE_ResNext and 1D-Top1Net(th
2020-12-23 20:12:19 947 3
转载 计算机视觉中的注意力机制
之前在看DETR这篇论文中的self_attention,然后结合之前实验室组会经常提起的注意力机制,所以本周时间对注意力机制进行了相关的梳理,以及相关的源码阅读了解其实现的机制一、注意力机制(attention mechanism)attention机制可以它认为是一种资源分配的机制,可以理解为对于原本平均分配的资源根据attention对象的重要程度重新分配资源,重要的单位就多分一点,不重要或者不好的单位就少分一点,在深度神经网络的结构设计中,attention所要分配的资源基本上就是权重了
2020-12-16 10:43:48 1455
转载 信道编码之纠删码编码
简介随着数据的存储呈现出集中化(以分布式存储系统为基础的云存储系统)和移动化(互联网移动终端)的趋势,数据可靠性愈发引起大家的重视。集群所承载的数据量大大上升,但存储介质本身的可靠性进步却很小,这要求我们必须以更加经济有效的方式来保障数据安全。副本与纠删码都是通过增加冗余数据的方式来保证数据在发生部分丢失时,原始数据不发生丢失。但相较于副本,纠删码能以低得多的存储空间代价获得相似的可靠性。比如3副本下,存储开销为3,因为同样的数据被存储了三份,而在10+3(将原始数据分为10份,计算3份冗余)的纠删
2020-12-16 10:21:16 1459
转载 矩阵补全(Matrix Completion)和缺失值预处理
目录1 常用的缺失值预处理方式 1.1 不处理 1.2 剔除 1.3 填充 2 利用矩阵分解补全缺失值 3 矩阵分解补全缺失值代码实现 4 通过矩阵分解补全矩阵的一些小问题 References矩阵补全(Matrix Completion),就是补上一个含缺失值矩阵的缺失部分。矩阵补全可以通过矩阵分解(matrix factorization)将一个含缺失值的矩阵 X 分解为两个(或多个)矩阵,然后这些分解后的矩阵相乘就可以得到原矩阵的近似 X',我们用这个近似矩阵 X'
2020-12-13 10:50:39 4655
转载 生成对抗网络 | 实验
学习目录阿力阿哩哩:深度学习 | 学习目录zhuanlan.zhihu.com上期我们介绍了阿力阿哩哩:生成对抗网络 | 原理及训练过程zhuanlan.zhihu.com同样地,我们依旧通过实验来巩固我们刚刚所学的知识点。本次实验是基于Jupyer Notebook、Anaconda Python3.7与Keras环境。数据集是利用Minst手写体图像数据集。5.3.1 代码1. # chapter5/5_3_GAN.ipynb2. import random .
2020-12-12 15:19:22 501
转载 自编码器(VAE)利用重建概率的异常检测
基于变分自编码器(VAE)利用重建概率的异常检测 本文为博主翻译自:Jinwon的Variational Autoencoder based Anomaly Detection using Reconstruction Probability,如侵立删http://dm.snu.ac.kr/static/docs/TR/SNUDM-TR-2015-03.pdf摘要我们提出了一种利用变分自动编码器重构概率的异常检测方法。重建概率是一种考虑变量分布变异性的概率度量。重建概率具有一...
2020-12-12 14:09:44 6006 1
转载 深度生成模型之自编码器(AutoEncoder)
。本讲先要介绍的是自编码器模型。作为一种无监督或者自监督算法,自编码器本质上是一种数据压缩算法。从现有情况来看,无监督学习很有可能是一把决定深度学习未来发展方向的钥匙,在缺乏高质量打标数据的监督机器学习时代,若是能在无监督学习方向上有所突破对于未来深度学习的发展意义重大。从自编码器到生成对抗网络,小编将和大家一起来探索深度学习中的无监督学习。1自编码器器所谓自编码器(Autoencoder,AE),就是一种利用反向传播算法使得输出值等于输入值的神经网络,它现将输入压缩成潜在空间表征,然后将这种表
2020-12-12 14:07:03 2790
转载 机器学习常见的采样方法
Index数据采样的原因常见的采样算法失衡样本的采样02数据采样的原因其实我们在训练模型的过程,都会经常进行数据采样,为了就是让我们的模型可以更好的去学习数据的特征,从而让效果更佳。但这是比较浅层的理解,更本质上,数据采样就是对随机现象的模拟,根据给定的概率分布从而模拟一个随机事件。另一说法就是用少量的样本点去近似一个总体分布,并刻画总体分布中的不确定性。因为我们在现实生活中,大多数数据都是庞大的,所以总体分布可能就包含了无数多的样本点,模型是无法对这些海量的数据进行直接建模的(..
2020-12-09 11:42:13 1880
转载 史上最全采样方法详细解读与代码实现
项目github地址:bitcarmanlee easy-algorithm-interview-and-practice欢迎大家star,留言,一起学习进步1.什么是采样在信号系统、数字信号处理中,采样是每隔一定的时间测量一次声音信号的幅值,把时间连续的,模拟信号转换成时间离散、幅值连续的采样信号。如果采样的时间间隔相等,这种采样称为均匀采样。在计算机系统中,有一个重要的问题就是给定一个概率分布p(x) , 我们如何在计算机中生成它的样本。平时我们接触比较多的场景是,给定一堆样本数据,求出这堆
2020-12-09 11:41:04 3038
转载 谈Elasticsearch下分布式存储的数据分布
对于一个分布式存储系统来说,数据是分散存储在多个节点上的。如何让数据均衡的分布在不同节点上,来保证其高可用性?所谓均衡,是指系统中每个节点的负载是均匀的,并且在发现有不均匀的情况或者有节点增加/删除时,能及时进行调整,保持均匀状态。本文将探讨Elasticsearch的数据分布方法,文中所述的背景是Elasticsearch 5.5。 在Elasticsearch中,以Shard为最小的数据分配/迁移单位。数据到节点的映射分离为两层:一层是数据到Shard的映射(Route),另一层是Shard到节点
2020-12-07 10:32:04 334
原创 机器学习需要多少训练数据?
机器学习需要多少训练数据?取决于:所需解决问题的难易程度 所采用的模型的复杂程度(模型参数数量) 想要达到什么样的性能① 最快的方法查找相关领域的论文资料,别人一般用多少的数据量② 经验范围回归分析:要训练出一个性能良好的模型,所需训练样本数量应是模型参数数量的10倍。缺点:稀疏特征:例如稀疏特征的编码是01001001对于模型的训练能够起到作用的特征是少数的,而不起作用的特征占大多数。依照上述线性规则,若模型对于每个特征分配相应的参数,也就是说对于无用的特征也分配了.
2020-12-07 10:25:27 2612
转载 机器学习100+问
目录概述篇:1. 机器学习的发展历史上有哪些主要事件?2. 机器学习有哪些主要的流派?它们分别有什么贡献?3. 讨论机器学习与人工智能的关系4. 讨论机器学习与数据挖掘的关系5. 讨论机器学习与数据科学、大数据分析等概念的关系6. 机器学习有哪些常用的应用领域?请举例说明其应用7. 机器学习能解决哪些问题?每一类使用的常用方法有哪些?举例说明其应用8. 举例说明机器学习的...
2020-12-07 00:23:19 98482 2
原创 数据指标的权重确定
分为三类:主观赋权法、客观赋权法和组合赋权法。(1)主观赋权法:根据决策者(专家)主观上对各属性的重视程度来确定属性权重的方法,其原始数据由专家根据经验主观判断得到。包括专家调查法(Delphi法)、层次分析法(AHP)、二项系数法、环比评分法、最小平方法等。主观赋权法的优点是专家可以根据实际的决策问题和专家自身的知识经验合理地确定各属性权重的排序,不至于出现属性权重与属性实际重要程度相悖的情况。但决策或评价结果具有较强的主观随意性,客观性较差,同时增加了对决策分析者的负担,应用中有很大局限
2020-12-07 00:14:10 10717
原创 SMOTE for Imbalanced Classification with Python
Last Updated on August 21, 2020Imbalanced classification involves developing predictive models on classification datasets that have a severe class imbalance.The challenge of working with imbalanced datasets is that most machine learning techniques will
2020-12-06 20:58:22 729 1
转载 分类问题样本数据不平衡的几个解决办法
分类时,由于训练集合中各样本数量不均衡,导致模型训偏在测试集合上的泛化性不好。解决样本不均衡的方法主要包括两类:(1)数据层面,修改各类别的分布;(2)分类器层面,修改训练算法或目标函数进行改进。还有方法是将上述两类进行融合。数据层面1. 过采样(1) 基础版本的过采样:随机过采样训练样本中数量比较少的数据;缺点,容易过拟合;(2) 改进版本的过采样:SMOTE,通过插值的方式加入近邻的数据点;(3) 基于聚类的过采样:先对数据进行聚类,然后对聚类后的数据分别进行过采样。这种方法能够降低
2020-12-05 15:37:49 4585
原创 数据集样本类别不均衡时,训练测试集应该如何做?
作者:小鹿鹿lulu链接:https://www.zhihu.com/question/373862904/answer/1039080874来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。多分类任务中类别不均衡是非常常见的一个问题,但是差别多少才算分布不均匀呢?这个没有一个确定的衡量标准。根据我个人的经验的话,不同类别数量差异超过一个数量级,我才会认为样本类别分布不均匀,需要特别关注和调整。比如题主的截图,最大的类别数是最小类别的三个数量集,差距非常大,触犯.
2020-12-05 15:35:34 4812
原创 Does increase in training set size help in increasing the accuracy perpetually or is there a saturat
I am using a boosted trees classifier which is giving better accuracy then all other linear classifier I tried. I have almost an unlimited training data at my disposal , I wanted to know if there is a saturation point in training beyond which even if you i
2020-12-05 15:23:28 102
原创 Training set size for neural networks considering curse of dimensionality
I'm learning the ropes of neural networks. Recently, I read stuff about the curse of dimensionality and how it might lead to overfitting (e.g. here).If I understand correctly, the number of features (dimensions) d of a given dataset with n data points is
2020-12-05 15:20:53 136
原创 How large a training set is needed?
Is there a common method used to determine how many training samples are required to train a classifier (an LDA in this case) to obtain a minimum threshold generalization accuracy?I am asking because I would like to minimize the calibration time usually
2020-12-05 15:18:18 115
转载 通过随机平滑验证对抗鲁棒性
Certified Adversarial Robustness via Randomized Smoothing文章目录 概 主要内容 定理1 代码 Cohen J., Rosenfeld E., Kolter J. Certified Adversarial Robustness via Randomized Smoothing. International Conference on Machine Learning (ICML), 2019.@ar.
2020-12-05 15:10:44 1570
转载 在机器学习中,你需要多少训练数据?
你为什么会问这个问题?首先我们要搞清楚你为什么会问需要多大的训练数据集。可能你现在有以下情况:你有太多的数据。可以考虑通过构建学习曲线(learning curves)来预估样本数据集(representative sample)的大小或者使用大数据的框架把所有的可得数据都用上。 你有太少的数据。首先确定你的数据量确实比较少。那么可以考虑尝试收集更多的数据或者用数据增强的方法(data augmentation methods)来人为的增加数据样本大小 你还没有开始收集数据?你需要开始手机数
2020-12-05 13:56:40 1327
转载 如何确定最佳训练数据集规模?
【导读】对于机器学习而言,获取数据的成本有时会非常昂贵,因此为模型选择一个合理的训练数据规模,对于机器学习是至关重要的。在本文中,作者针对线性回归模型和深度学习模型,分别介绍了确定训练数据集规模的方法。数据是否会成为新时代的“原油”是人们近来常常争论的一个问题。无论争论结果如何,可以确定的是,在机器学前期,数据获取成本可能十分高昂(人力工时、授权费、设备运行成本等)。因此,对于机器学习的一个非常关键的问题是,确定能使模型达到某个特定目标(如分类器精度)所需要的训练数据规模。在本文中,我们将.
2020-12-05 13:46:51 2638
转载 不均衡样本的处理方式
不均衡样本的处理方式 目前正在做的一个项目碰到了样本不均衡的问题,转载博主的文章以方便项目改进研究原文:https://blog.csdn.net/quiet_girl/article/details/77948345论文链接:Learning from Imbalanced Data一、基本概念1、类间不平衡 VS. 类内不平衡类间不平衡:不同类别之间的数据量相差较大。类内不平衡:某一个类分布成多个小聚类,每个小聚类数据量相差较大。如下图:图(a)中圆形和五角星代表2.
2020-12-05 10:53:19 1927
转载 图像的上采样(upsampling)与下采样(subsampled)
参考:http://blog.csdn.net/majinlei121/article/details/46742339http://blog.csdn.net/augusdi/article/details/9028365 缩小图像(或称为下采样(subsampled)或降采样(downsampled))的主要目的有两个:1、使得图像符合显示区域的大小;2、生成对应图像的缩略图。 放大图像(或称为上采样(upsampling)或图像插值(interpola...
2020-12-05 10:36:41 668
原创 数据挖掘笔记 - 支持向量机基础
1 概念支持向量机是一种分类方法,通过寻求结构化、风险最小,来提高学习机泛化能力,实现经验风险和置信范围的最小化,从而达到在统计样本量较小的情况下,亦能获得良好统计规律的目的。通俗来讲,他是一种二类分类模型,基本模型定义为特征空间上的间隔最大的线性分类器,即支持向量机的学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。SVM可以很好的应用于高维数据,避免维灾难问题。这种方法具有一个独特的特点,它使用训练实例的一个子集来表示决策边界,该子集作为支持向量。尽管SVM的训练非常慢,但是由于
2020-12-04 17:38:21 941
SOSP 2019.zip
2020-08-10
CES2019官方回馈:价值2000美元报告 _ 资讯 _ 数据观 _ 中国大数据产业观察_大数据门户_files.zip
2020-03-19
Guicherd-Callin_T_Distributed_Data_Integrity_Assurance_and_Repair.pdf
2020-11-25
Dexter_Michael_Combating_Evolving_Ransomware_at_the_Block_Level.pdf
2020-11-25
Yoshida_Hiroshi_Experiments_in_Storing_Data__Cold_Storage_Services.pdf
2020-11-25
Yang_L_Zhu_D_Achieving_10-Million_IOPS_from_a_single_VM_on_Windows_Hyper-V.pdf
2020-11-25
Sengupta_D_Kumar_U_Using_CDMI_to_Create_Replicate_Storage_Objects_and_Data.pdf
2020-11-25
算法导论(第三版).pdf
2020-11-18
a simple, Unix-like teaching operating system-rev8.pdf
2020-11-08
math-deep.pdf
2020-06-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人