自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

转载 提升深度学习模型的表现,你需要这20个技巧

原文:https://www.jiqizhixin.com/articles/2016-09-26-2 提升深度学习模型的表现,你需要这20个技巧 By机器之心2016年9月26日 15:12 本文原文的作者 Jason Brownlee 是一位职业软件开发者,没有博士学位的他通过「从应...

2019-07-25 09:12:07 638 0

原创 Keras实现LeNet网络参考

模型论文地址 Yann LeCun(1998)的论文《Gradient-Based Learning Applied to Document Recognition》,用于MNIST数据集。 模型结构说明 输入为32X32的灰度图像,第一层为6个5X5卷积核,不扩展边界; 第二层为2X2的...

2019-06-10 22:26:44 604 0

原创 连续特征离散化参考地址

连续特征离散化:https://blog.csdn.net/ztf312/article/details/53991329https://blog.csdn.net/hellozhxy/article/details/80675229https://blog.csdn.net/oppo622588...

2019-04-06 16:41:53 242 0

原创 CNN层调参经验与Drop层、BN层的使用经验

转载地址:https://www.cnblogs.com/bonelee/p/8534560.html https://blog.csdn.net/sean2100/article/details/83834565 两篇文章主要给了两个结论: 结论一:CNN 文本分类模型优化经验——关键...

2019-04-06 16:38:57 1651 0

原创 PyTorch实现的各类论文和代码参考(安利供保存收藏)

文章地址 机器之心: https://www.jiqizhixin.com/articles/102101 一篇翻译,主要是关于PyTorch的内容,提供了代码支持,项目地址:https://github.com/bharathgs/Awesome-pytorch-list 具体的列表如...

2019-04-06 14:39:06 1343 0

原创 Python中from from __future__ import *的用法

from __future__ import *参考:https://blog.csdn.net/zzc15806/article/details/81133045 我们在读代码的时候,总是会看到代码开头会加上from __future__ import *这样的语句。这样的做法的作用就是将新版...

2019-02-23 15:10:34 585 0

转载 机器学习NLP参考文章

本站整理了一些NLP的入门资料参考,建议初学者看看。 需要复制链接在浏览器里打开。   1.通过kaggle比赛学习机器学习文本分类方法https://zhuanlan.zhihu.com/p/34899693?utm_medium=social&utm_source=wec...

2019-02-23 15:00:41 250 0

原创 loss问题——工作中对出现的loss问题描述与解决参考

问题一:loss跑飞 如下图描述 1、学习率(lr)过大,可以自定义一个学习率的值(较小)开始学习。 参考blog:https://blog.csdn.net/CHNguoshiwushuang/article/details/81784299 也就是说,学习率如果设置过大,会导致...

2019-02-23 14:49:07 1198 2

原创 数据不平衡问题——SMOTE算法赏析

春节前后好久没有总结问题了,这一段时间一直在做NLP的文本分类(二分类)问题,遇到了各种问题 。分别如下: 1、数据打标问题。运营人手不够可把兄弟们累坏了,是我给兄弟们分的任务,别打我嘿嘿。      打标问题主要是业务不熟悉,主观上分类很容易分错,在分类的时候一定要让运营方来确定分类标准。 ...

2019-02-23 13:52:13 1415 0

转载 算法工程师(机器学习)部分面试题(转载参考)

其他参考:https://www.jianshu.com/p/980efc8105b2?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommend...

2019-01-27 13:32:46 3562 0

原创 Xgboost参数以及调优

现实工作中遇到了xgboost来做基准,原因主要是由于用它来做预测分类效果很理想。后面做深度学习很难能有比他好的。线上往往还是使用的xgboost训练出来的model! 参考:https://blog.csdn.net/han_xiaoyang/article/details/52665396 ...

2019-01-27 13:19:07 420 0

原创 Keras—猫狗数据集进行卷积(Conv2D)训练以及图像数据增强

 数据增强不可以增强验证集和测试集!! # !/user/bin/env python # -*- coding:utf-8 -*- """ @author:MXD @file: 小型数据集训练卷积神经网络.py @time: 2019/01/20 14:36 @...

2019-01-20 16:44:53 1184 0

原创 样本不平衡问题分析与部分解决办法

最近工作中在处理文本分类问题遇到了分类不均衡的问题,主要还是样本太少还同时非常的不均衡正负样本1:10(类别不平衡比例超过4:1,就会造成偏移),就使用了SMOTE方法。 注意:在进行数据增广的时候一定要将测试集和验证集单独提前分开,扩张只在训练集上进行,否则会造成在增广的验证集和测试集上进行验...

2019-01-20 14:11:03 9934 4

转载 深度学习中的特征工程——不同数据类型与采用的处理方式

之前关于特征工程的blog:https://blog.csdn.net/qq_33472765/article/details/86422199 什么是特征工程? 顾名思义,特征工程是一种工程活动,目的是从原始数据中最大限度的提取出能表征原始数据信息的特征。数据和特征决定了机器学习的上限,算法...

2019-01-20 13:48:07 1135 0

转载 大规模文本分类参考(转发)

前几天在网上看到了一个blog关于大规模文本分类的内容,在这里转发保存一下。 大规模文本分类实践-知乎看山杯总结   原文地址:http://coderskychen.cn/2017/08/20/zhihucup/ 本文主要介绍了我在知乎看山杯机器学习挑战赛中的一些实验和总结,代码已公开...

2019-01-20 13:43:35 418 0

原创 Keras—embedding嵌入层的使用

最近在工作中进行了NLP的内容,使用的还是Keras中embedding的词嵌入来做的。 Keras中embedding层做一下介绍。 中文文档地址:https://keras.io/zh/layers/embeddings/ 参数如下:  其中参数重点有input_dim,outpu...

2019-01-20 13:38:25 9030 1

原创 Keras :MNIST数字图像识别示例(卷积神经网络)

Keras:MNIST数字图像识别示例   # !/user/bin/env python # -*- coding:utf-8 -*- from keras.datasets import mnist from keras.utils import to_categorical from ...

2019-01-13 20:07:15 396 0

转载 Keras部分源码赏析

Keras 源码分析 此文档中,凡代码里用pass,均系省略源码以便阅读,起“本枝百世”之用。此注明者,乃pass非源码所有,勿叫读者疑心不解也。 [TOC] Keras 概览 我们从一个简单的全连接分类器来看Keras的设计原则和阅读源代码。在Keras的官网上有这样一个简单全连接网络的...

2019-01-13 18:35:50 2235 3

原创 pytorch torch matplotlib openCV-python pytorch0.4 numpy中文文档参考地址

pytorch torch matplotlib openCV-python pytorch0.4 numpy中文文档参考地址 参考地址: https://ptorch.com/news/50.html 跳转 地址: Pytorch Torch Pytorch视频 Matplotl...

2019-01-13 18:19:21 335 0

转载 Pandas速查手册

原文:https://cloud.tencent.com/developer/article/1094110 对于数据科学家,无论是数据分析还是数据挖掘来说,Pandas是一个非常重要的Python包。它不仅提供了很多方法,使得数据处理非常简单,同时在数据处理速度上也做了很多优化,使得和Pyth...

2019-01-13 18:11:12 252 0

原创 Gensim介绍

参考:https://blog.csdn.net/duinodu/article/details/76618638 https://www.cnblogs.com/iloveai/p/gensim_tutorial.html Gensim是一款开源的第三方Python工具包,用于从原始的非结构...

2019-01-13 18:09:07 1041 1

原创 结巴分词参考地址

Git参考:https://github.com/fxsjy/jieba jieba 是一个python实现的中文分词组件,在中文分词界非常出名,支持简、繁体中文,高级用户还可以加入自定义词典以提高分词的准确率。 它支持三种分词模式 精确模式:试图将句子最精确地切开,适合文本分析; 全模式...

2019-01-13 18:02:20 406 0

原创 Python读取大文件与内存占用检测(常用的分步调试pdb)

大文件读取问题 顺便记录一下vim的配置:https://blog.csdn.net/sinat_33741547/article/details/74781591 https://blog.csdn.net/zwbill/article/details/78475705 这个很简单但是这里...

2019-01-13 17:26:03 324 0

原创 机器学习:伦敦出租车示例(数据分析,数据处理)

原地址:http://ju.outofmemory.cn/entry/299056 记得有一个出租车对于数据分析是很好的参考范例。找找转发过来以后参考!   在纽约,出租车分为两类:黄色和绿色。黄色出租(Yellow TAXI)车可以在纽约五大区(布朗克斯区、布鲁克林区、曼哈顿、皇后区、斯塔...

2019-01-13 17:02:45 3050 0

原创 特征:什么是特征和特征选择?

机器学习很重要的过程就是特征工程。在深度学习神经网络中需要特征工程吗? 理论上是不需要的,基于端到端的特点深度学习神经网络中会在训练中自行的学习特征。但是实际情况中往往和理论中是有些不一样的,在遇到数据量较少和需要减少运算资源的情况下就需要做一下特征工程。 后面是正文,关于特征和特征选择的几种...

2019-01-13 16:54:02 593 0

原创 Keras使用分批迭代(fit_generate)的方式训练数据

文章参考:https://blog.csdn.net/lujiandong1/article/details/54869170   说明:我是在keras的官方demo上进行修改https://github.com/fchollet/keras/blob/master/examples/imd...

2019-01-06 20:49:39 5417 3

原创 L0、L1与L2范数、核范数分析

L0、L1与L2范数、核范数 范数结合参考正则化博客——https://blog.csdn.net/qq_33472765/article/details/85946710 参考:https://www.cnblogs.com/MengYan-LongYou/p/4050862.htmlhtt...

2019-01-06 20:41:46 442 0

原创 关于keras中使用CPU/GPU的配置(包含tensorboard使用)

参考:keras分批训练指定GPU:https://blog.csdn.net/github_36326955/article/details/79910448          kerasGPU配置:https://blog.csdn.net/sinat_26917383/article/de...

2019-01-06 20:36:41 1320 0

转载 [深度学习]更好地理解正则化:可视化模型权重分布

在机器学习中,经常需要对模型进行正则化,以降低模型对数据的过拟合程度,那么究竟如何理解正则化的影响?本文尝试从可视化的角度来解释其影响。 首先,正则化通常分为三种,都是在loss函数的基础上外加一项: L0:  ,即不等于0的元素个数 L1: ,即所有元素的绝对值之和 L2:,即所有元素的...

2019-01-06 20:05:58 317 0

原创 pandas中时间序列的处理(获得时间特征:年月日周分秒等时间)

关于描述:在项目中遇到了特征的提取,因为数据的变化和时间有直接的关系,就考虑这个时间能提取出那些特征? 我的数据示例:200101010100。年月日时分秒的这个里面提取数据,我很明显可以看出来需要尝试提取:日时分特征 参考:https://www.jianshu.com/p/93734eee...

2019-01-06 19:49:47 14898 1

原创 机器学习中数据预处理——标准化/归一化方法(scaler)

由于工作问题比较忙,有两周没有总结一下工作学习中遇到的问题。 这篇主要是关于机器学习中的数据预处理的scaler变化。 工作中遇到的问题是:流量预测问题,拿到的数据差距非常大,凌晨的通话流量很少几乎为0;但是在早上8点以后数据就会激增最高常常是500以上的情况。 通常,在Data Scien...

2019-01-06 19:32:29 8351 1

原创 深度学习VS机器学习——到底什么区别

深度学习VS机器学习——到底什么区别 看过很多关于这些区别的文章,无意中看到了这个这个文章,决定转发一下作为科普! 自己看的书上也有很清楚的解释和区别,懒得写了! 只写个大概:1.数据集大小。2.特征工程在机器学习中需要大量的工作量来处理但是深度学习这个过程可以完全自动化。3.深度学习可以解...

2018-12-23 21:29:53 334 0

原创 时序数据的分析

最近工作中遇到了时序预测问题,查询了部分博客找到部分特征工程的处理过程,感觉还可以分享一下: 参考地址:https://www.cnblogs.com/bradleon/p/6832867.html 原始数据的检测(波动,平稳性,周期,方差等)和时间序列的预测代码参考:https://blog...

2018-12-23 21:20:51 4464 0

原创 时间序列的分析及滚动预测代码

 注意:参考地址http://www.cnblogs.com/foley/p/5582358.html 部分代码可能因为版本问题出现bug! 什么是时间序列       时间序列简单的说就是各时间点上形成的数值序列,时间序列分析就是通过观察历史数据预测未来的值。在这里需要强调一点的是,时间序...

2018-12-23 21:19:02 7995 2

原创 数据的平滑处理函数——log1p和exmp1

参考: https://blog.csdn.net/qq_36523839/article/details/82422865           https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.log1p.htm...

2018-12-08 21:17:35 709 0

原创 Numpy大纲——函数,属性,运算等

    NumPy是高性能科学计算和数据分析的基础包。部分功能如下: ndarray, 具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。 用于对整组数据进行快速运算的标准数学函数(无需编写循环)。 用于读写磁盘数据的工具以及用于操作内存映射文件的工具。 线性代数、随机...

2018-12-08 21:09:23 204 0

原创 Python之Numpy数组拼接--组合--连接--切分--变形(stack,hstack,vstack,dstack,vsplit,concatenate等)

Python之Numpy数组拼接,组合,连接 转自:https://www.douban.com/note/518335786/?type=like stack(),hstack(),vstack() dstack()  vsplit()、concatenate()参考(推荐): https...

2018-12-08 20:55:39 956 0

原创 基于卷积的神经网络的时间序列预测——WaveNet

基于卷积的神经网络的时间序列预测——WaveNet 原文博客的参考地址:https://jeddy92.github.io/JEddy92.github.io/ts_seq2seq_conv/ 项目参考地址:https://github.com/JEddy92/TimeSeries_Seq2S...

2018-12-02 16:19:38 11080 3

原创 numpy和pandas简单快速入门

由于部分代码需要和数据文件配合,将项目和文件个人的GitHub——地址:https://github.com/1769172502/machine-learning   关于numpy参考菜鸟地址:http://www.runoob.com/numpy/numpy-tutorial.html ...

2018-12-02 15:42:51 403 0

原创 Python3 configparse模块(配置)

Python3 configparse模块(配置) 参考:https://www.cnblogs.com/bert227/p/9326313.html          https://www.cnblogs.com/dion-90/p/7978081.html python2: https...

2018-12-02 14:44:28 484 0

提示
确定要删除当前文章?
取消 删除