机器学习
文章平均质量分 75
千瞱
世界上没有完美的程序,但我们并不因此而沮丧,因为写程序本来就是一个不断追求完美的过程。
展开
-
Win10 Anaconda下配置tensorflow+jupyter notebook环境
Anaconda能够提供虚拟环境,不同环境之间互不影响,是个很方便的工具。这次配置tensorflow环境的时候我选择在anaconda环境下配置,过程总结如下1.安装anaconda到Anaconda官网下载,我是用的是Anaconda3-4.8.0版本(Python3对应的是Anaconda3,Python2对应的是Anaconda2),根据需要下载即可。下载好之后点击exe文件安...原创 2018-09-22 20:12:52 · 8224 阅读 · 0 评论 -
Tensorflow入门篇(未完待续)
读完本篇,你应该能够:自己使用Tensorflow搭建一个神经网络。首先对于Tensorflow有一个基本的认识,如果你是一个新手,还是乖乖地看完第一节的介绍部分。一、基本概念这一部分官方文档:https://tensorflow.google.cn/guide/low_level_intro1 张量(tensor)Tensorflow的核心数据单位是张量,一个张量其实就是...原创 2018-11-25 22:59:45 · 254 阅读 · 0 评论 -
Keras调用plot_model报错解决方法:Failed to import pydot...
在建立神经网络模型的时候,可以调用keras中的plot_model模块画出模型示意图,方便调整模型结构:from keras.utils.vis_utils import plot_modelplot_model(model, to_file='model2.png',show_shapes=True)然鹅!发现事情并不简单,报错了!于是想着照着上面的要求,安装个 pydot...原创 2019-09-18 22:39:21 · 2033 阅读 · 0 评论 -
啥,跟着蠕虫就能学会KL散度?
[博客翻译]Kullback-Leibler Divergence Explained原文地址:https://www.countbayesie.com/blog/2017/5/9/kullback-leibler-divergence-explained在本文中我们将介绍在信息论以及机器学习等领域广为使用的KL散度 (Kullback-Leibler Divergence),KL散度主要用于比较两个概率分布的相似程度,两个分布越相似KL散度值越大,如果分布完全相同则KL散度为0。在概率和统计领域,我们原创 2021-02-01 15:15:37 · 268 阅读 · 0 评论 -
置信学习入门<未完成>
1 置信学习提出的背景在做机器学习模型的时候我们一般认为数据的标签是可信的,而对于那些不可信的数据可能会直接丢弃或者利用类似半监督学习的思想处理。而置信学习反其道行之,通过使用一些策略给出数据原始标签的置信程度,纠正噪音数据的标签之后再进行后续的训练。该概念来自于ICML2020年的一篇论文:Confident Learning: Estimating Uncertainty in Dataset Labels,先列出置信学习框架的优势:可以发现标注错误的数据可以直接估计噪声标签与真实标签的联合分布原创 2021-01-02 19:54:32 · 1058 阅读 · 2 评论 -
pytorch学习笔记之分类问题中常用的损失函数
pytorch中多分类问题中最常用的损失函数应该就是CrossEntropyLoss了,传闻该函数结合了LogSoftmax和NLLLoss两个函数,那么这个函数到底是什么来头呢?本文来一探究竟。交叉熵的定义交叉熵刻画的是实际输出的分布与期望分布的距离:如果模型输出的结果的分布和期望的分布越相似,那么交叉熵就越小。交叉熵的定义公式为CrossEntropy(f(x),y)=−∑i=1nyilogf(xi)CrossEntropy(f(\textbf{x}), \textbf{y})=-\sum_{i=1原创 2020-11-13 22:19:55 · 1951 阅读 · 0 评论 -
pytorch学习笔记之tensorboardX的使用
在训练模型的过程中,应该关注于学习曲线避免模型过拟合,借助tensorboard可以非常方便地对训练过程中的各种数据进行可视化分析(虽然在pytorch下使用tensorboard,但其内核是 tensorflow里面的board,所以安装之前得先安装 tensorflow)1 安装必备的工具pip install tensorboardXpip install tensorboardpip install tensorflow2 在代码中使用举例在使用的时候需要创建一个Summary原创 2020-11-12 16:52:20 · 6022 阅读 · 2 评论 -
pytorch学习笔记之DataLoader
Dataset & DataLoader基础在PyTorch中一般需要使用DataLoader来小批量的加载数据,也就类似于mini-batch的操作,如下图所示:(图片来自b站[刘二大人]上传视频《PyTorch深度学习实践》完结合集)为此PyTorch提供了torch.utils.data.Dataset这样一个基类用于构建我们自己的数据集,我们要做的就是基于这个基类实现一个派生类,需要实现两个函数,如下代码框架所示:import torchfrom torch.util原创 2020-11-12 15:31:24 · 494 阅读 · 1 评论 -
机器学习之数据可视化方案
一个算法小白在拿到数据的第一步可能会按照下面的流程进行:| 清洗数据 | => | 划分训练集/测试集 | => | 上模型 | => | 得到结果 | => | 胡搞 |作为一个稍有经验的算法工程师,也许应该更加注重前期对数据的分析,因为——每次操作数据运行模型烧的都是钱啊!因此在前期对数据/特征的分析其实还是挺重要的,这一篇文章总结一下我常用的数据降维可视化方案:使用t-SNE降维分析特征。降维算法常用的降维算法有PCA和LDA,但是这两个算法的降维可视化效果并不是很好(原创 2020-11-05 17:25:46 · 1383 阅读 · 0 评论 -
[2020年冠状病毒肺炎 - 武汉加油] 使用Logistic增长模型预测确诊病人数目
在前一段时间,我脑子一热使用指数回归以及多项式回归对新型冠状病毒2019-nCov的感染人数进行预测。后来发现不行啊,感染人数不可能一直上涨啊,总得有停止上涨的时候啊!在多名网友的提醒下,在参考了邢翔瑞大佬的博客之后,我痛定思痛,尝试使用Logistic增长模型对感染人数进行预测,结果如下图(下图是直接使用拟合得到的r值,为0.303,经过简单的测试,这个模型预测的数量偏小,如果有大佬对此比较了解...原创 2020-02-07 18:28:32 · 8248 阅读 · 2 评论 -
[论文阅读]Factorization Machines
Factorization Machines/ 2020-01 Howard Wonanut 推荐算法系列文章(1)????人工翻译并包含个人理解,欢迎批评指正,但谢绝转载。本文介绍因子分解机(FM),这是一种新的模型,它结合了支持向量机(SVM)和因式分解模型的优点。FM是一种通用预测器(与SVM一样),能够处理任何实值数。另外,其使用分解参数模拟变量之间的所有交互(原文:In contr...原创 2020-01-15 18:54:48 · 1485 阅读 · 1 评论 -
[论文阅读]EMNIST: an extension of MNIST to handwritten letters
论文阅读EMNIST: an extension of MNIST to handwritten letters/ 2020-01 Howard wonanut最近遇到一个问题,需要识别手写字母,这个问题本身没啥难度,难在如何找到训练数据集,因为之前做过手写数字的识别,知道有个MNIST手写数字数据集,可这手写字母数据集还真没注意过。第一个映入眼帘的手写字母数据集是Chars74k数据集,...原创 2020-01-15 14:19:45 · 1643 阅读 · 0 评论 -
机器学习之分类算法应用篇
和上一篇聚类算法类似,本文主要分享一个包装好的使用sklearn中常用分类器分类结果对比的代码,方便初步比较模型的时候使用,程序运行结果如下图所示。先给出代码,后续再做详细分析。可执行Python3代码:# 分类问题可运行代码from collections import Counterfrom sklearn.datasets import load_irisfrom imb...原创 2020-01-09 14:38:14 · 1156 阅读 · 0 评论 -
机器学习之聚类算法——聚类效果评估可视化
我曾在机器学习之聚类算法应用篇中介绍过,聚类算法常使用轮廓系数来评估聚类效果,不过有时候并不是轮廓系数越大越好,如下面两幅图所示,图中的红色虚线表示聚类系数分数:显然将簇数据设置为2的时候得到的轮廓系数最高,达到了0.705分,但是这并不一定是最好的聚类结果,显然在这个测试集中,我们有4个簇。为了将各个簇的轮廓系数以可视化的形式展现出来,辅助决策聚类参数,【机器学习】菜菜的sklear...原创 2020-01-07 15:28:10 · 9405 阅读 · 0 评论 -
机器学习之聚类算法应用篇
文章目录1 概述1.1 无监督学习与聚类算法1.2 sklearn中常用的聚类算法2 sklearn中生成测试数据函数介绍2.1 make_classification2.2 make_moons2.3 make_moons2.4 make_blobs3 使用sklearn聚类示例3.1 簇数据聚类3.2 月牙形数据聚类3.3 环形数据聚类4 各聚类算法在各种簇分布下的聚类效果对比1 概述本专...原创 2020-01-07 12:52:29 · 3931 阅读 · 0 评论 -
2020 待整理书籍TODO-List
2020 待整理书籍TODO-List以下的书籍也是机器学习/CS中经典书籍,需要高清电子版的可留言:翻译-整理书籍《Classic_Computer_Science_Problems_in_Python》 翻译-整理书籍《Hands-on-ml-with-sklearn-and-tf》 翻译-整理书籍《Natural Language Processing in Action》 翻...原创 2020-01-03 09:50:39 · 295 阅读 · 0 评论 -
Keras LSTM时间序列预测
使用Keras LSTM预测时间序列参考文章:Kesci: Keras 实现 LSTM——时间序列预测:https://www.cnblogs.com/mtcnn/p/9411597.html读取数据data_path = "/mnt/X500/farmers/tongyao/机器学习项目练习/industry_timeseries/"#查看其中一个地区的训练数据import pan...原创 2019-12-26 15:12:27 · 4115 阅读 · 2 评论 -
1 机器学习概览
Chapter1 机器学习概览《Hands on machine learning with scikit-learn and tensorflow》读书笔记整理:Howard Wonanut(不懂机器学习的菜鸟)日期:2019-11-281.1 什么是机器学习?定义1: 机器学习是通过编程让计算机从数据中进行学习的科学(和艺术)。定义2:机器学习是让计算机具有学习的...原创 2019-11-28 16:02:24 · 431 阅读 · 0 评论 -
半监督学习综述
Chapter 7 Semi-supervised Learning翻译不易,未经允许请勿转载!Author: Mohamed Farouk Abdel Hady and Friedhelm SchwenkerTranslator: Howard Wonanut摘要传统的监督学习方法需要使用有标签数据建立模型。然而,在现实世界中给训练数据打标签可能需要昂贵的...原创 2019-09-06 14:54:07 · 11627 阅读 · 4 评论