机器学习/深度学习
MXuDong
假如有一天我变成了流氓,请告诉别人我曾经纯真过!
展开
-
机器学习01——机器学习需要什么?
一:语言python:python不是唯一的但是他是非常适合的。优点.....很多。二:机器学习与人工智能机器学习是基础——>人工智能三:机器学习的理解一个婴儿,需要模仿着父母不停的学习然后学会说话和行走是一样的道理。机器学习是给一个目标——>机器模仿实现目标——>最终实现四:机器学习需要什么?算法 数据 程序 评估 应用五:机器学习能做什...原创 2018-11-18 15:21:20 · 2272 阅读 · 0 评论 -
pytorch torch matplotlib openCV-python pytorch0.4 numpy中文文档参考地址
pytorch torch matplotlib openCV-python pytorch0.4 numpy中文文档参考地址参考地址: https://ptorch.com/news/50.html跳转 地址:PytorchTorchPytorch视频MatplotlibOpenCV-PythonPytorch0.4Numpy...原创 2019-01-13 18:19:21 · 799 阅读 · 0 评论 -
Keras部分源码赏析
Keras 源码分析此文档中,凡代码里用pass,均系省略源码以便阅读,起“本枝百世”之用。此注明者,乃pass非源码所有,勿叫读者疑心不解也。[TOC]Keras 概览我们从一个简单的全连接分类器来看Keras的设计原则和阅读源代码。在Keras的官网上有这样一个简单全连接网络的示例The Sequential model API:import kerasfrom ker...转载 2019-01-13 18:35:50 · 4272 阅读 · 5 评论 -
Keras :MNIST数字图像识别示例(卷积神经网络)
Keras:MNIST数字图像识别示例 # !/user/bin/env python# -*- coding:utf-8 -*-from keras.datasets import mnistfrom keras.utils import to_categoricalfrom keras import layersfrom keras import models# imp...原创 2019-01-13 20:07:15 · 1169 阅读 · 0 评论 -
深度学习中的特征工程——不同数据类型与采用的处理方式
之前关于特征工程的blog:https://blog.csdn.net/qq_33472765/article/details/86422199什么是特征工程?顾名思义,特征工程是一种工程活动,目的是从原始数据中最大限度的提取出能表征原始数据信息的特征。数据和特征决定了机器学习的上限,算法和模型不过是逼近这个上限。不过深度学习不用像传统机器学习那样人为合成高级复杂特征,只需利用人类的先验知...转载 2019-01-20 13:48:07 · 2884 阅读 · 0 评论 -
样本不平衡问题分析与部分解决办法
最近工作中在处理文本分类问题遇到了分类不均衡的问题,主要还是样本太少还同时非常的不均衡正负样本1:10(类别不平衡比例超过4:1,就会造成偏移),就使用了SMOTE方法。注意:在进行数据增广的时候一定要将测试集和验证集单独提前分开,扩张只在训练集上进行,否则会造成在增广的验证集和测试集上进行验证和测试,在实际上线后再真实数据中效果可能会非常的差。目录什么是样本类别分布不均衡?问题描...原创 2019-01-20 14:11:03 · 24292 阅读 · 6 评论 -
Keras—猫狗数据集进行卷积(Conv2D)训练以及图像数据增强
数据增强不可以增强验证集和测试集!!# !/user/bin/env python# -*- coding:utf-8 -*-"""@author:MXD@file: 小型数据集训练卷积神经网络.py@time: 2019/01/20 14:36@software: PyCharm"""import os, shutil###将数据分别存到各个文件夹# 原始数据集的...原创 2019-01-20 16:44:53 · 2848 阅读 · 0 评论 -
Xgboost参数以及调优
现实工作中遇到了xgboost来做基准,原因主要是由于用它来做预测分类效果很理想。后面做深度学习很难能有比他好的。线上往往还是使用的xgboost训练出来的model!参考:https://blog.csdn.net/han_xiaoyang/article/details/52665396目录优势1、正则化2、并行处理3、高度的灵活性4、缺失值处理5、剪枝6、...原创 2019-01-27 13:19:07 · 1861 阅读 · 0 评论 -
算法工程师(机器学习)部分面试题(转载参考)
其他参考:https://www.jianshu.com/p/980efc8105b2?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendationhttps://www.jianshu.com/p/4a7f7127eef1?utm_campaign=male...转载 2019-01-27 13:32:46 · 7966 阅读 · 0 评论 -
loss问题——工作中对出现的loss问题描述与解决参考
问题一:loss跑飞如下图描述1、学习率(lr)过大,可以自定义一个学习率的值(较小)开始学习。参考blog:https://blog.csdn.net/CHNguoshiwushuang/article/details/81784299也就是说,学习率如果设置过大,会导致其直接跑到另外一边,从而导致loss跑飞。当然真实的loss变化是在一个奇异空间里的,不是图上的那种二...原创 2019-02-23 14:49:07 · 8667 阅读 · 2 评论 -
PyTorch实现的各类论文和代码参考(安利供保存收藏)
文章地址机器之心: https://www.jiqizhixin.com/articles/102101一篇翻译,主要是关于PyTorch的内容,提供了代码支持,项目地址:https://github.com/bharathgs/Awesome-pytorch-list具体的列表如下注意:主要还是参考原文,内容还是很有意义的自然语言处理和语音处理该...原创 2019-04-06 14:39:06 · 5064 阅读 · 1 评论 -
CNN层调参经验与Drop层、BN层的使用经验
转载地址:https://www.cnblogs.com/bonelee/p/8534560.htmlhttps://blog.csdn.net/sean2100/article/details/83834565两篇文章主要给了两个结论:结论一:CNN 文本分类模型优化经验——关键点:加卷积层和FC可以提高精度,在FC前加BN可以加快收敛,有时候可以提高精度,FC后加...原创 2019-04-06 16:38:57 · 4418 阅读 · 0 评论 -
连续特征离散化参考地址
连续特征离散化:https://blog.csdn.net/ztf312/article/details/53991329https://blog.csdn.net/hellozhxy/article/details/80675229https://blog.csdn.net/oppo62258801/article/details/79271762...原创 2019-04-06 16:41:53 · 706 阅读 · 0 评论 -
Keras实现LeNet网络参考
模型论文地址Yann LeCun(1998)的论文《Gradient-Based Learning Applied to Document Recognition》,用于MNIST数据集。模型结构说明输入为32X32的灰度图像,第一层为6个5X5卷积核,不扩展边界;第二层为2X2的最大值池化层,步进为2X2;第三层为16个5X5卷积核,不扩展边界;第四层为2X2的最大值池化...原创 2019-06-10 22:26:44 · 2972 阅读 · 2 评论 -
机器学习:伦敦出租车示例(数据分析,数据处理)
原地址:http://ju.outofmemory.cn/entry/299056记得有一个出租车对于数据分析是很好的参考范例。找找转发过来以后参考! 在纽约,出租车分为两类:黄色和绿色。黄色出租(Yellow TAXI)车可以在纽约五大区(布朗克斯区、布鲁克林区、曼哈顿、皇后区、斯塔滕岛)内任何地点搭载乘客。绿色出租车(Green TAXI)则被规定只允许在上曼哈顿、布朗克斯区、皇后...原创 2019-01-13 17:02:45 · 8629 阅读 · 2 评论 -
特征:什么是特征和特征选择?
机器学习很重要的过程就是特征工程。在深度学习神经网络中需要特征工程吗?理论上是不需要的,基于端到端的特点深度学习神经网络中会在训练中自行的学习特征。但是实际情况中往往和理论中是有些不一样的,在遇到数据量较少和需要减少运算资源的情况下就需要做一下特征工程。后面是正文,关于特征和特征选择的几种方式!在machine learning (机器学习)中,特征工程是重中之重,我们今天就来简单介绍...原创 2019-01-13 16:54:02 · 2624 阅读 · 0 评论 -
numpy和pandas简单快速入门
由于部分代码需要和数据文件配合,将项目和文件个人的GitHub——地址:https://github.com/1769172502/machine-learning 关于numpy参考菜鸟地址:http://www.runoob.com/numpy/numpy-tutorial.html关于pandas参考地址:https://blog.csdn.net/jiangjiang_jian...原创 2018-12-02 15:42:51 · 853 阅读 · 0 评论 -
基于卷积的神经网络的时间序列预测——WaveNet
基于卷积的神经网络的时间序列预测——WaveNet原文博客的参考地址:https://jeddy92.github.io/JEddy92.github.io/ts_seq2seq_conv/项目参考地址:https://github.com/JEddy92/TimeSeries_Seq2Seq/blob/master/notebooks/TS_Seq2Seq_Conv_Intro.ipyn...原创 2018-12-02 16:19:38 · 24215 阅读 · 3 评论 -
Python之Numpy数组拼接--组合--连接--切分--变形(stack,hstack,vstack,dstack,vsplit,concatenate等)
Python之Numpy数组拼接,组合,连接转自:https://www.douban.com/note/518335786/?type=likestack(),hstack(),vstack() dstack() vsplit()、concatenate()参考(推荐):https://blog.csdn.net/csdn15698845876/article/details/73...原创 2018-12-08 20:55:39 · 2314 阅读 · 0 评论 -
Numpy大纲——函数,属性,运算等
NumPy是高性能科学计算和数据分析的基础包。部分功能如下: ndarray, 具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。 用于对整组数据进行快速运算的标准数学函数(无需编写循环)。 用于读写磁盘数据的工具以及用于操作内存映射文件的工具。 线性代数、随机数生成以及傅里叶变换功能。 用于集成C、C++、Fortran等语言编写的代码的工具。 首...原创 2018-12-08 21:09:23 · 371 阅读 · 0 评论 -
数据的平滑处理函数——log1p和exmp1
参考: https://blog.csdn.net/qq_36523839/article/details/82422865 https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.log1p.html数据平滑处理 -- log1p( ) 和 exmp1( )1. 数据预处理时首先可以对偏度...原创 2018-12-08 21:17:35 · 4126 阅读 · 0 评论 -
时间序列的分析及滚动预测代码
注意:参考地址http://www.cnblogs.com/foley/p/5582358.html部分代码可能因为版本问题出现bug!什么是时间序列 时间序列简单的说就是各时间点上形成的数值序列,时间序列分析就是通过观察历史数据预测未来的值。在这里需要强调一点的是,时间序列分析并不是关于时间的回归,它主要是研究自身的变化规律的(这里不考虑含外生变量的时间序列)。为什么...原创 2018-12-23 21:19:02 · 28112 阅读 · 6 评论 -
时序数据的分析
最近工作中遇到了时序预测问题,查询了部分博客找到部分特征工程的处理过程,感觉还可以分享一下:参考地址:https://www.cnblogs.com/bradleon/p/6832867.html原始数据的检测(波动,平稳性,周期,方差等)和时间序列的预测代码参考:https://blog.csdn.net/qq_33472765/article/details/85226361时间序...原创 2018-12-23 21:20:51 · 11700 阅读 · 0 评论 -
深度学习VS机器学习——到底什么区别
深度学习VS机器学习——到底什么区别看过很多关于这些区别的文章,无意中看到了这个这个文章,决定转发一下作为科普!自己看的书上也有很清楚的解释和区别,懒得写了!只写个大概:1.数据集大小。2.特征工程在机器学习中需要大量的工作量来处理但是深度学习这个过程可以完全自动化。3.深度学习可以解决问题的范围更大更复杂。等等于是Google了一下,发现一篇很棒的科普文,这里翻译一下,分享给大家...原创 2018-12-23 21:29:53 · 650 阅读 · 0 评论 -
机器学习中数据预处理——标准化/归一化方法(scaler)
由于工作问题比较忙,有两周没有总结一下工作学习中遇到的问题。这篇主要是关于机器学习中的数据预处理的scaler变化。工作中遇到的问题是:流量预测问题,拿到的数据差距非常大,凌晨的通话流量很少几乎为0;但是在早上8点以后数据就会激增最高常常是500以上的情况。通常,在Data Science中,预处理数据有一个很关键的步骤就是数据的标准化。这里主要引用sklearn文档中的一些东西来说明...原创 2019-01-06 19:32:29 · 35660 阅读 · 3 评论 -
pandas中时间序列的处理(获得时间特征:年月日周分秒等时间)
关于描述:在项目中遇到了特征的提取,因为数据的变化和时间有直接的关系,就考虑这个时间能提取出那些特征?我的数据示例:200101010100。年月日时分秒的这个里面提取数据,我很明显可以看出来需要尝试提取:日时分特征参考:https://www.jianshu.com/p/93734eeed9b3获取每周几的时间参考:https://blog.csdn.net/qq_36076233/...原创 2019-01-06 19:49:47 · 39214 阅读 · 5 评论 -
[深度学习]更好地理解正则化:可视化模型权重分布
在机器学习中,经常需要对模型进行正则化,以降低模型对数据的过拟合程度,那么究竟如何理解正则化的影响?本文尝试从可视化的角度来解释其影响。首先,正则化通常分为三种,都是在loss函数的基础上外加一项:L0: ,即不等于0的元素个数L1: ,即所有元素的绝对值之和L2:,即所有元素的绝对值平方和训练模型的时候,模型将在保证loss主体损失下降的情况下,尽量保证权重往这些方向走,从...转载 2019-01-06 20:05:58 · 938 阅读 · 0 评论 -
关于keras中使用CPU/GPU的配置(包含tensorboard使用)
参考:keras分批训练指定GPU:https://blog.csdn.net/github_36326955/article/details/79910448 kerasGPU配置:https://blog.csdn.net/sinat_26917383/article/details/75633754GPU参考:https://blog.csdn.net/qq_3642...原创 2019-01-06 20:36:41 · 4612 阅读 · 1 评论 -
L0、L1与L2范数、核范数分析
L0、L1与L2范数、核范数范数结合参考正则化博客——https://blog.csdn.net/qq_33472765/article/details/85946710参考:https://www.cnblogs.com/MengYan-LongYou/p/4050862.htmlhttps://blog.csdn.net/shijing_0214/article/details/517...原创 2019-01-06 20:41:46 · 1018 阅读 · 0 评论 -
Keras使用分批迭代(fit_generate)的方式训练数据
文章参考:https://blog.csdn.net/lujiandong1/article/details/54869170 说明:我是在keras的官方demo上进行修改https://github.com/fchollet/keras/blob/master/examples/imdb_cnn.py1、几点说明,从文件中读入数据,会降低GPU的使用率,如果能够直接将数据载入内存,...原创 2019-01-06 20:49:39 · 9338 阅读 · 3 评论 -
提升深度学习模型的表现,你需要这20个技巧
原文:https://www.jiqizhixin.com/articles/2016-09-26-2 提升深度学习模型的表现,你需要这20个技巧By机器之心2016年9月26日 15:12本文原文的作者 Jason Brownlee 是一位职业软件开发者,没有博士学位的他通过「从应用中学习」的方法自学了机器学习,他表示对帮助职业开发者应用机器学习来解决复杂问题很有热情,也为机器学...转载 2019-07-25 09:12:07 · 1764 阅读 · 0 评论