balei8887-CSDN博客

转载 LightGBM论文精度（未完）

本博客大致翻译一下LightGBM论文的主旨要义，方便以后复习。????代表存在问题论文名称：《LightGBM: A Highly Efficient Gradient Boosting Decision Tree》摘要　　GBDT，包括其工程优化如XGBoost和pGBDT等，存在着当特征维度升高且数据量增大时，效率和可伸缩性的下降。产生该问题主要原因是：对于每个特征...

2019-09-04 16:17:00 207

转载正则化L1、L2的理解

本篇文章是对18年11月19日，自己写的L1、L2范数文章的进一步总结，之前在学习正则化，了解到了L1和L2正则化，这里记录一下。目录：1. 什么是正则化2. 如何理解正则化3. 正则化的作用第一个问题，什么是正则化？正则化就是在损失函数后加上一个正则化项（惩罚项），其实就是常说的结构风险最小化策略，即经验风险（损失函数）加上正则化。一般模型越复杂，正则化值越...

2019-03-23 16:47:00 604

转载模型参数选择方法——GridSearch网格搜索

在日常模型训练过程中，模型有多种选择，模型的参数同样也有多种选择，如何根据同一批数据选出最适合的模型和参数呢？一般情况下，模型还比较好选择，是选用机器学习中分类模型例如 LR、SVM或XGBoost等，还是使用深度学习模型CNN、LSTM等。但是参数的选择就让人很头疼，每个模型都有一堆参数，参数值又有许多，如何不费人力而费机器的选择模型参数呢，我今天看到了一种方法叫做：GridSea...

2019-03-14 15:31:00 2032

转载 python中//和/的区别

通常C/C++中，"/ " 算术运算符的计算结果是根据参与运算的两边的数据决定的，比如：6 / 3 = 2 ; 6,3都是整数，那么结果也就是整数2;6.0 / 3.0 = 2.0 ; 6.0,3.0是浮点数，那么结果也是浮点数2.0，更精确的说，只要" / " 两边有一个数是浮点数，那么结果就是浮点数。在Python2.2版本以前也是这么规定的，但是，Python的设计者认为这么做不符...

2019-03-12 11:36:00 170

转载样本不均衡对模型的影响

在做项目的时候，发现在训练集中，正负样本比例比例在1:7左右，虽然相差不多（但在实际获取的样本比例大概在1:2000左右），所以有必要探讨一下在样本不均衡的情况下，这些训练数据会对模型产生的影响。在实际的模型选取中，采用了SVM和textCNN这两种模型对文本进行分类，下面分别看一下这两种模型在样本不均衡的情况下，其泛化能力的体现（搜集其他人做过的实验与总结，参考博客附于文章末尾...

2019-03-10 10:59:00 2815

转载 kNN与Kmeans算法学习

kNN和Kmeans在初学者学习过程中，可能会产生一些混淆，趁着复习阶段在博客总结一下，学习到的和总结的知识点。首先需要知道，kNN和Kmeans的最重要区别：kNN算法是分类算法，分类算法肯定是需要有学习语料，然后通过学习语料的学习之后的模板来匹配我们的测试语料集，将测试语料集合进行按照预先学习的语料模板来分类Kmeans算法是聚类算法，聚类算法与分类算法最大的区别是聚...

2019-03-08 17:35:00 267

转载归并排序的python实现

排序思路：首先归并排序使用了二分法，归根到底的思想还是分而治之。拿到一个长数组，将其不停的分为左边和右边两份，然后以此递归分下去。然后再将她们按照两个有序数组的样子合并起来。所以当将这左右两边分到不可分，也就到了该合并的时候。这里显示了归并排序的第一步，将数组按照middle进行递归拆分，最后分到最细之后再将其使用对两个有序数组进行排序的方法对其进行排序。两个有序数组排序...

2019-03-06 22:29:00 85

转载快速排序Python实现

算法导论上的快速排序采用分治算法，步骤如下：1.选取一个数字作为基准，可选取末位数字2.将数列第一位开始，依次与此数字比较，如果小于此数，将小数交换到左边，最后达到小于基准数的在左边，大于基准数的在右边，分为两个数组3.分别对两个数组重复上述步骤其中一次排序步骤如下：伪码实现：QuickSort(A,p,r) if p<r ...

2019-03-05 15:46:00 135

转载深度学习——L0、L1及L2范数

在深度学习中，监督类学习问题其实就是在规则化参数同时最小化误差。最小化误差目的是让模型拟合训练数据，而规则化参数的目的是防止模型过分拟合训练数据。参数太多，会导致模型复杂度上升，容易过拟合，也就是训练误差小，测试误差大。因此，我们需要保证模型足够简单，并在此基础上训练误差小，这样训练得到的参数才能保证测试误差也小，而模型简单就是通过规则函数来实现的。规则化项可以是模型参数向量的范...

2018-11-19 11:36:00 404

转载拿到机器学习数据后，该如何对数据进行划分？

在处理机器学习任务时，我们都需要使用数据，当然，有时候数据集可以很大，有时候数据集数量不是很理想，那么如何针对这些数据得出更加有效的模型呢？大型数据集Idea #1：当我们拿到数据集后，如果将所有数据进行训练的话这样会导致模型见过所有的数据，如果再用这些数据进行测试的话，效果会非常好，但我们知道，这其实是一种过拟合现象，我们的模型在当前数据集中，永远表现很好。I...

2018-11-08 17:50:00 384

转载启动tensorboard进行可视化

TensorBoard是TensorFlow下的一个可视化的工具，能够帮助研究者们可视化训练大规模神经网络过程中出现的复杂且不好理解的运算，展示训练过程中绘制的图像、网络结构等。step1：准备好需要可视化的数据，运行完毕会生成一个log文件保存需要可视化的数据。step2：定位到log文件的位置，然后进入这个目录step3：在这个目录下，输入如下命令：t...

2018-10-31 17:20:00 127

转载使用ubuntu下载百度网盘的有关内容

## 注意：据aria2贴吧部分吧友提示，目前aira2无法进行下载，2018年10月31日10:47:03留。原因是aria2软件问题。打开Ubuntu的自带的火狐浏览器，下载下面这个插件https://addons.mozilla.org/zh-CN/firefox/addon/baidu-pan-exporter/0先使用 sudo apt-get upg...

2018-10-31 10:45:00 126

转载 LeetCode 238. 有个方法hin nice

class Solution(object): def productExceptSelf(self, nums): """ :type nums: List[int] :rtype: List[int] """ p = 1 n = len(nums) ...

2018-10-24 22:30:00 112

转载【区间合并】一些小思路

leetcode中有几道和数字区间合并有关的题，大致就是有交集的地方，把这几个有交集的区间合并起来。思路如下：先将所有区间按照开头进行排序，然后开始遍历，用目前已确定的区间的尾部和即将要判断的区间的头部比较大小，1）如果尾部>=头部，证明有交集，就去看这两个区间谁的尾部更大，取更大的尾部；2）如果尾部<头部，证明没有交集，那么直接把这个已确定的区间放入返...

2018-10-24 22:00:00 195

转载【二叉树】根据中序、后序构建二叉树，前序、中序构建二叉树

二叉树的构建是一个常常考察的内容，有关二叉树的题目一般是使用递归方法解决，但是找到合适的递归方程很关键。前序遍历：先看根节点，然后是左子树，最后是右子树。中序遍历：先看左子树，然后是根节点，最后是右子树。后序遍历：先看左子树，然后是右子树，最后是根节点。前序：根左右，可以根据这个结构先确定根的值，和位置。就是序列的第一个值中序：左根右后序：左右根，可以根据...

2018-10-24 21:32:00 135

转载使用kaggle内提供的Api下载数据（Ubuntu系统）

如何在kaggle平台使用官方提供的api下载数据？1. 首先在kaggle个人资料处生成秘钥（点击头像，再点击My Account进入）然后会自动下载一个名为 kaggle.json的文件。2. 把该文件kaggle.json复制到/home/xx/.kaggle下。3. 使用提供的api代码，进行下载。例如：kaggle competitions down...

2018-10-22 15:16:00 244

转载 CNN基础知识

CNN - Convolutional Neural Networks是近些年在机器视觉领域很火的默许部分，最先由Yan Lecun提出。如果想学细节可看Li Feifei CS231n课程如何工作？给一张图片，每个圆负责处理图片的一部分。这些圆就组成了一个filter。filter可以识别图片中是否存在指定的pattern，以及在哪个区域存在。下图中有...

2018-10-12 11:44:00 146

转载常用激活函数比较

本文结构：什么是激活函数为什么要用都有什么sigmoid、ReLU、softmax的比较如何选择1. 什么是激活函数如下图，在神经元中，输入的inputs通过加权，求和后，还被作用了一个函数，这个函数就是激活函数 Activation Function。2. 为什么用如果不用激励函数，每一层输出都是上层输入的线性函数，无论神经网络有多少...

2018-10-10 21:47:00 102

转载什么是神经网络

本文结构：什么是神经网络什么是神经元神经网络的计算和训练代码实现1. 什么是神经网络神经网络就是按照一定规则将多个神经元连接起来的网络例如全连接（full connected）神经网络，它的规则包括：有三种层：输入层，输出层，隐藏层。同一层的神经元之间没有连接。full connected的含义：第N层的每个神经元和第N-1层的所有神经...

2018-10-09 16:42:00 484

转载神经网络线性单元

本文结构：什么是线性单元有什么用代码实现1. 什么是线性单元线性单元和感知器的区别就是在激活函数：感知器的f是阶跃函数：线性单元的激活函数是线性的：所以线性模型的公式如下：2. 有什么用感知器存在一个问题，就是遇到线性不可分的数据时，就可能无法收敛，所以要使用一个可导的线性函数来替代阶跃函数，即线性单元，这样就会收敛...

2018-10-09 11:53:00 304

转载神经网络感知器

本文结构：什么是感知器有什么用代码实现1. 什么是感知器在下图，这个神经网络中，每个圆圈都是一个神经元，神经元也叫做感知器只有一个隐藏层的神经网络就能拟合任何一个函数，但它需要很多很多的神经元。而深层神经网络用相对少的神经元就能拟合同样的函数，但是层数增加了，不太容易训练，需要大量的数据。为了拟合一个函数，可以使用一个浅而宽的网络，也可以使用一...

2018-10-08 21:36:00 214

转载 Mini-batch 梯度下降与Tensorflow中的应用

mini-batch在深度学习中训练神经网络时经常用到，这是一种梯度下降方法，可以很快的降低cost，接下来系统介绍一下。1. 什么是 mini-batch梯度下降先来快速看一下BGD，SGD，MBGD的定义，当每次是对整个训练集进行梯度下降的时候，就是batch梯度下降当每次只对一个样本进行梯度下降的时候，就是 stochastic梯度下降当每次处理样本的个数在上面...

2018-09-27 22:13:00 418

转载一道小时候经常玩的数字游戏

小时候经常会自己玩一个数学游戏，就是遇到一个长度大于2的数字，把它的所有位数相加，直到加到变成1位。没想到，今天竟然在leetcode遇到了。。汗，之前只是玩了，并没有总结规律。258.Add DigitsGiven a non-negative integernum, repeatedly add all its digits until the result has on...

2018-09-26 22:05:00 178

转载一道有趣的题，237. Delete Node in a Linked List

题目如下：Write a function to delete a node (except the tail) in a singly linked list, given only access to that node.Given linked list -- head = [4,5,1,9], which looks like following: 4 ...

2018-09-25 22:44:00 71

转载机器学习中常用评估指标

评估指标 Evaluation metrics 可以说明模型的性能，辨别模型的结果。我们建立一个模型后，计算指标，从指标获取反馈，再继续改进模型，直到达到理想的准确度。在预测之前检查模型的准确度至关重要，而不应该建立一个模型后，就直接将模型应用到看不到的数据上。今天先来简单介绍几种回归和分类常用的评估方法。回归均方误差：其中D为数据分布，p为概率密度函数...

2018-09-20 20:43:00 169

转载【转载】如何选择优化器，梯度下降算法

本文转自简书，https://www.jianshu.com/p/d99b83f4c1a6。本文主要涉及一些梯度下降算法。转载于:https://www.cnblogs.com/Vancuicide/p/9675503.html

2018-09-19 17:01:00 127

转载 validation curve 验证曲线与超参数

验证曲线的作用我们知道误差由偏差（bias）、方差（variance）和噪声（noise）责成。偏差：模型对于不同的训练样本集，预测结果的平均误差。方差：模型对于不同训练样本集的敏感程度噪声：数据集本身的一项属性同样的数据（cos函数上的点加上噪声），我们用同样的模型（polynomial），但是超参数却不同（degree=1, 4, 15），会得到不同的拟合效果：...

2018-09-19 16:58:00 341

转载 Learning Curve 与偏差方差（判断欠过拟合）

之前有一篇文章介绍了什么是偏差（bias）与方差（variance），这篇文章介绍一下如何使用学习曲线来判断模型是否处于欠拟合或过拟合。什么是学习曲线？学习曲线就是通过画出不同训练集大小时训练集和验证集的准确率，可以看到模型在新数据上的表现，进而来判断模型是否方差偏高或偏差过高，是否可以通过增加数据集来减少过拟合、是否可以通过增加特征、减少正则项来降低偏差。...

2018-09-18 10:36:00 297

转载【转载】一个框架解决几乎所有机器学习问题

本文转载自Alice熹爱学习。本文不用做任何商业用途，纯属博主记录学习使用。文章链接：https://blog.csdn.net/aliceyangxi1987/article/details/71079448。上周一个叫 Abhishek Thakur 的数据科学家，在他的 Linkedin 发表了一篇文章 Approaching (Almost) Any Machi...

2018-09-17 16:45:00 60

转载交叉验证

什么是交叉验证？它的基本思想就是将原始数据（dataset）进行分组，一部分做为训练集来训练模型，另一部分做为测试集来评价模型。主要是用于小部分数据集中。通过图片可以看出，划分出来的测试集（test set）是不可以动的，因为模型参数的优化是使用验证集（validation set），这个结果是有偏差的，所以需要一个没见过的新数据集进行泛化能力测试。为什么用交叉验证法...

2018-09-17 15:25:00 328

转载 ML中的集成学习

什么是集成学习？集成学习或者叫元算法，就是对其他算法进行组合的一种方式。毕竟，三个臭皮匠顶个诸葛亮呢。集成学习的处理思路就是这样。集成学习为什么有效？不同的模型通常会在测试集上产生不同的误差；如果成员的误差是独立的，集成模型将显著地比其他成员表现更好。集成学习的基本策略Boosting方法基于串行策略：基学习器之间存在依赖关系，新的学习器要根据上一个学习器生成...

2018-09-13 20:15:00 110

转载 ML中的方差与偏差

下面这一段节选自知乎用户，具体链接为：https://www.zhihu.com/question/27068705/answer/82132134。在机器学习过程中，我们用训练数据集去训练（学习）一个model（模型），通常的做法是定义一个Loss function（误差函数），通过将这个Loss（或者叫error）的最小化过程，来提高模型的性能（performance）。然而...

2018-09-12 16:07:00 222

转载在Github中下载一个文件夹里的所有文件

当需要下载Github上的某些文件，而不需要整个项目时，可以选择使用DownGit网站。https://minhaskamal.github.io/DownGit/#/home然后输入文件夹路径即可。详细使用教程可以看一下，https://github.com/MinhasKamal/DownGit。原作者哦。转载于:https://www.cnblogs.co...

2018-09-11 21:55:00 593

转载 github不用输入用户密码即可登录

使用github的时候，尤其是往自己的项目中提交内容时，如果每次都要输入账号密码，这会是一个极其让人难受的事情。下面介绍如何不输入账号密码，直接使用git push origin xx，即可直接提交的方法。github下拉内容的方法github下拉内容的方法有两种，一种是HTTPS方式，另一种则是SSH方式。第一种方式下拉的代码，在提交的时候，每次必须使用账号密码进行一个验证...

2018-09-10 10:41:00 648

转载 205. Isomorphic Strings 同构字符串

题目简述：Given two stringssandt, determine if they are isomorphic.Two strings are isomorphic if the characters inscan be replaced to gett.All occurrences of a character must be replaced w...

2018-09-06 10:09:00 76

转载【转载】Python 刷题日记：LeetCode 204: Count Primes

该题目转自二当家的掌柜，链接为https://blog.csdn.net/github_39261590/article/details/73864039。感谢大神。原题： Description:Count the number of prime numbers less than a non-negative number, n.解题思路：常规解法：...

2018-09-06 09:30:00 62

转载【转载】数据结构与算法系列目录

内容转载自大神skywang12345，链接为http://www.cnblogs.com/skywang12345/p/3603935.html。最近抽空整理了"数据结构和算法"的相关文章。在整理过程中，对于每种数据结构和算法分别给出"C"、"C++"和"Java"这三种语言的实现；实现语言虽不同，但原理如出一辙。因此，读者在了解和学习的过程中，择其一即可！下面是整理数据...

2018-09-05 15:05:00 86

转载【转载】数组、单链表和双链表介绍以及双向链表的C/C++/Java实现

本博客转自大神skywang12345，链接地址http://www.cnblogs.com/skywang12345/p/3561803.html概要线性表是一种线性结构，它是具有相同类型的n(n≥0)个数据元素组成的有限序列。本章先介绍线性表的几个基本组成部分：数组、单向链表、双向链表；随后给出双向链表的C、C++和Java三种语言的实现。内容包括：数组单向链表双...

2018-09-05 11:35:00 114

转载 BAT机器学习面试1000题系列（第1~305题）（二）

记录一些已经看过的题目。https://blog.csdn.net/v_JULY_v/article/details/7812192414 L1和L2正则先验分别服从什么分布。机器学习 ML基础易（没太看懂）@齐同学：面试中遇到的，L1和L2正则先验分别服从什么分布，L1是拉普拉斯分布，L2是高斯分布。@AntZ: 先验就是优化的起跑线, 有先验的好处就是可以在较小的数据集中...

2018-09-05 09:35:00 116

转载 BAT机器学习面试1000题系列（第1~305题）

记录一些已经看过的题目。https://blog.csdn.net/v_JULY_v/article/details/781219241 请简要介绍下SVM，机器学习 ML模型易SVM，全称是support vector machine，中文名叫支持向量机。SVM是一个面向数据的分类算法，它的目标是为确定一个分类超平面，从而将不同的数据分隔开。扩展：这里有篇文章详尽介绍了S...

2018-09-03 22:23:00 64

空空如也

空空如也