2019年01月_MXuDong

07月 06月 04月 02月 01月

转载算法工程师（机器学习）部分面试题（转载参考）

其他参考：https://www.jianshu.com/p/980efc8105b2?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendationhttps://www.jianshu.com/p/4a7f7127eef1?utm_campaign=male...

2019-01-27 13:32:46 8275

原创 Xgboost参数以及调优

现实工作中遇到了xgboost来做基准，原因主要是由于用它来做预测分类效果很理想。后面做深度学习很难能有比他好的。线上往往还是使用的xgboost训练出来的model！参考：https://blog.csdn.net/han_xiaoyang/article/details/52665396目录优势1、正则化2、并行处理3、高度的灵活性4、缺失值处理5、剪枝6、...

2019-01-27 13:19:07 2467

原创 Keras—猫狗数据集进行卷积（Conv2D）训练以及图像数据增强

数据增强不可以增强验证集和测试集！！# !/user/bin/env python# -*- coding:utf-8 -*-"""@author:MXD@file: 小型数据集训练卷积神经网络.py@time: 2019/01/20 14:36@software: PyCharm"""import os, shutil###将数据分别存到各个文件夹# 原始数据集的...

2019-01-20 16:44:53 2883

原创样本不平衡问题分析与部分解决办法

最近工作中在处理文本分类问题遇到了分类不均衡的问题，主要还是样本太少还同时非常的不均衡正负样本1:10（类别不平衡比例超过4:1，就会造成偏移），就使用了SMOTE方法。注意：在进行数据增广的时候一定要将测试集和验证集单独提前分开，扩张只在训练集上进行，否则会造成在增广的验证集和测试集上进行验证和测试，在实际上线后再真实数据中效果可能会非常的差。目录什么是样本类别分布不均衡？问题描...

2019-01-20 14:11:03 25516 6

转载深度学习中的特征工程——不同数据类型与采用的处理方式

之前关于特征工程的blog：https://blog.csdn.net/qq_33472765/article/details/86422199什么是特征工程？顾名思义，特征工程是一种工程活动，目的是从原始数据中最大限度的提取出能表征原始数据信息的特征。数据和特征决定了机器学习的上限，算法和模型不过是逼近这个上限。不过深度学习不用像传统机器学习那样人为合成高级复杂特征，只需利用人类的先验知...

2019-01-20 13:48:07 2990

转载大规模文本分类参考（转发）

前几天在网上看到了一个blog关于大规模文本分类的内容，在这里转发保存一下。大规模文本分类实践-知乎看山杯总结原文地址：http://coderskychen.cn/2017/08/20/zhihucup/本文主要介绍了我在知乎看山杯机器学习挑战赛中的一些实验和总结，代码已公开，传送门。阅读本篇大约需要10分钟。尊重原创，转载请注明出处。先晒一发排名，9th，有小遗憾，但是...

2019-01-20 13:43:35 1130

原创 Keras—embedding嵌入层的使用

最近在工作中进行了NLP的内容，使用的还是Keras中embedding的词嵌入来做的。Keras中embedding层做一下介绍。中文文档地址：https://keras.io/zh/layers/embeddings/参数如下：其中参数重点有input_dim,output_dim,非必选参数input_length.初始化方法参数设置后面会单独总结一下。demo...

2019-01-20 13:38:25 21748 6

原创 Keras ：MNIST数字图像识别示例（卷积神经网络）

Keras：MNIST数字图像识别示例 # !/user/bin/env python# -*- coding:utf-8 -*-from keras.datasets import mnistfrom keras.utils import to_categoricalfrom keras import layersfrom keras import models# imp...

2019-01-13 20:07:15 1204

转载 Keras部分源码赏析

Keras 源码分析此文档中，凡代码里用pass，均系省略源码以便阅读，起“本枝百世”之用。此注明者，乃pass非源码所有，勿叫读者疑心不解也。[TOC]Keras 概览我们从一个简单的全连接分类器来看Keras的设计原则和阅读源代码。在Keras的官网上有这样一个简单全连接网络的示例The Sequential model API：import kerasfrom ker...

2019-01-13 18:35:50 4345 5

原创 pytorch torch matplotlib openCV-python pytorch0.4 numpy中文文档参考地址

pytorch torch matplotlib openCV-python pytorch0.4 numpy中文文档参考地址参考地址： https://ptorch.com/news/50.html跳转地址：PytorchTorchPytorch视频MatplotlibOpenCV-PythonPytorch0.4Numpy...

2019-01-13 18:19:21 841

转载 Pandas速查手册

原文：https://cloud.tencent.com/developer/article/1094110对于数据科学家，无论是数据分析还是数据挖掘来说，Pandas是一个非常重要的Python包。它不仅提供了很多方法，使得数据处理非常简单，同时在数据处理速度上也做了很多优化，使得和Python内置方法相比时有了很大的优势。如果你想学习Pandas，建议先看两个网站。（1）官网： P...

2019-01-13 18:11:12 434

原创 Gensim介绍

参考：https://blog.csdn.net/duinodu/article/details/76618638https://www.cnblogs.com/iloveai/p/gensim_tutorial.htmlGensim是一款开源的第三方Python工具包，用于从原始的非结构化的文本中，无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF，LSA，LDA，和word2...

2019-01-13 18:09:07 2894 1

原创结巴分词参考地址

Git参考：https://github.com/fxsjy/jiebajieba 是一个python实现的中文分词组件，在中文分词界非常出名，支持简、繁体中文，高级用户还可以加入自定义词典以提高分词的准确率。它支持三种分词模式精确模式：试图将句子最精确地切开，适合文本分析；全模式：把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；搜索引擎模式：在精确模式...

2019-01-13 18:02:20 1072

原创 Python读取大文件与内存占用检测（常用的分步调试pdb）

大文件读取问题顺便记录一下vim的配置：https://blog.csdn.net/sinat_33741547/article/details/74781591https://blog.csdn.net/zwbill/article/details/78475705这个很简单但是这里重复写一下，主要是记录一下后面的内存检测和分部调试！！！1.read()与readlines()：...

2019-01-13 17:26:03 1142 1

原创机器学习：伦敦出租车示例（数据分析，数据处理）

原地址：http://ju.outofmemory.cn/entry/299056记得有一个出租车对于数据分析是很好的参考范例。找找转发过来以后参考！在纽约，出租车分为两类：黄色和绿色。黄色出租(Yellow TAXI)车可以在纽约五大区（布朗克斯区、布鲁克林区、曼哈顿、皇后区、斯塔滕岛）内任何地点搭载乘客。绿色出租车(Green TAXI)则被规定只允许在上曼哈顿、布朗克斯区、皇后...

2019-01-13 17:02:45 8819 2

原创特征：什么是特征和特征选择？

机器学习很重要的过程就是特征工程。在深度学习神经网络中需要特征工程吗？理论上是不需要的，基于端到端的特点深度学习神经网络中会在训练中自行的学习特征。但是实际情况中往往和理论中是有些不一样的，在遇到数据量较少和需要减少运算资源的情况下就需要做一下特征工程。后面是正文，关于特征和特征选择的几种方式！在machine learning （机器学习）中，特征工程是重中之重，我们今天就来简单介绍...

2019-01-13 16:54:02 2856

原创 Keras使用分批迭代（fit_generate）的方式训练数据

文章参考：https://blog.csdn.net/lujiandong1/article/details/54869170 说明：我是在keras的官方demo上进行修改https://github.com/fchollet/keras/blob/master/examples/imdb_cnn.py1、几点说明，从文件中读入数据，会降低GPU的使用率，如果能够直接将数据载入内存，...

2019-01-06 20:49:39 9433 3

原创 L0、L1与L2范数、核范数分析

L0、L1与L2范数、核范数范数结合参考正则化博客——https://blog.csdn.net/qq_33472765/article/details/85946710参考：https://www.cnblogs.com/MengYan-LongYou/p/4050862.htmlhttps://blog.csdn.net/shijing_0214/article/details/517...

2019-01-06 20:41:46 1063

原创关于keras中使用CPU/GPU的配置（包含tensorboard使用）

参考：keras分批训练指定GPU：https://blog.csdn.net/github_36326955/article/details/79910448 kerasGPU配置:https://blog.csdn.net/sinat_26917383/article/details/75633754GPU参考:https://blog.csdn.net/qq_3642...

2019-01-06 20:36:41 4751 1

转载 [深度学习]更好地理解正则化：可视化模型权重分布

在机器学习中，经常需要对模型进行正则化，以降低模型对数据的过拟合程度，那么究竟如何理解正则化的影响？本文尝试从可视化的角度来解释其影响。首先，正则化通常分为三种,都是在loss函数的基础上外加一项：L0：，即不等于0的元素个数L1：，即所有元素的绝对值之和L2：，即所有元素的绝对值平方和训练模型的时候，模型将在保证loss主体损失下降的情况下，尽量保证权重往这些方向走，从...

2019-01-06 20:05:58 987

原创 pandas中时间序列的处理（获得时间特征：年月日周分秒等时间）

关于描述：在项目中遇到了特征的提取，因为数据的变化和时间有直接的关系，就考虑这个时间能提取出那些特征？我的数据示例：200101010100。年月日时分秒的这个里面提取数据，我很明显可以看出来需要尝试提取：日时分特征参考：https://www.jianshu.com/p/93734eeed9b3获取每周几的时间参考：https://blog.csdn.net/qq_36076233/...

2019-01-06 19:49:47 39354 5

原创机器学习中数据预处理——标准化/归一化方法（scaler）

由于工作问题比较忙，有两周没有总结一下工作学习中遇到的问题。这篇主要是关于机器学习中的数据预处理的scaler变化。工作中遇到的问题是：流量预测问题，拿到的数据差距非常大，凌晨的通话流量很少几乎为0；但是在早上8点以后数据就会激增最高常常是500以上的情况。通常，在Data Science中，预处理数据有一个很关键的步骤就是数据的标准化。这里主要引用sklearn文档中的一些东西来说明...

2019-01-06 19:32:29 36014 3