chduan_10-CSDN博客

转载 SSH原理与运用（一）：远程登录

SSH是每一台Linux电脑的标准配置。随着Linux设备从电脑逐渐扩展到手机、外设和家用电器，SSH的使用范围也越来越广。不仅程序员离不开它，很多普通用户也每天使用。SSH具备多种功能，可以用于很多场合。有些事情，没有它就是办不成。本文是我的学习笔记，总结和解释了SSH的常见用法，希望对大家有用。虽然本文内容只涉及初级应用，较为简单，但是需要读者具备最基本的"Shell知识"和了解"...

2019-07-03 13:59:21 262

转载 MAC中生成SSH key

1.检查是否已经存在SSH keys打开终端，输入命令$ ls -al ~/.ssh如果已存在，则结果会列出目录文件列表，则进入第3步。. .. id_rsa id_rsa.pub如果不存在，则结果如下，则进入第2步。# ls: /Users/hony/.ssh: No such file or directory2.生成SS...

2019-07-03 13:56:40 2261

转载 8个不可不知的Mac OS X专用命令行工具

OS X的终端下通用很多Unix的工具和脚本。如果从Linux迁移到OS X会发现很多熟悉的命令和脚本工具，其实并没有任何区别。但是OS X也提供了很多其他系统所没有的特别的命令行工具。我们推荐8个这类的工具，希望有助于提高在Mac的命令行环境下的效率。1. openopen命令用于打开文件、目录或执行程序。就等同于在命令行模式下，重复图形界面“双击”的动作。例如这个命令与在Finde...

2019-07-03 12:10:57 2701

转载大数据处理-Bitmap

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（归约）"Bit-map空间压缩和快速排序去重1. Bit-map的基本思想　　32位机器上，对于一个整型数，比如int a=1 在内存中占32bit位，这是为了方便计算机的运算。但是对于某些应用场景而言，这属于一种巨大的浪费，因为我们可以用对应的32bit位对应存储十进制的...

2018-09-13 15:48:47 243

转载 GBDT几问

GBDT几问本篇文章主要介绍GBDT基本原理以及一些细节性的东西，这些东西更多在面试使用，或者对于二次创新使用，主要内容有以下几个方面： GBDT几问 Boosting算法Bagging算法介绍 GBDT基本原理 GBDT如何正则化 GBDT分裂规则 GBDT的“梯度提升”体现在那个阶段 GBDT如何做特征选择 GBDT为什么使用cart回...

2018-09-11 22:04:13 3858

转载 Gradient Boosted Decision Trees（GBDT）详解

感受 GBDT集成方法的一种，就是根据每次剩余的残差，即损失函数的值。在残差减少的方向上建立一个新的模型的方法，直到达到一定拟合精度后停止。我找了一个相关的例子来帮助理解。本文结合了多篇博客和书，试图完整介绍GBDT的内容，欢迎大家来指正。介绍 GBDT是一个应用很广泛的算法，可以用来做分类、回归。GBDT这个算法还有其它名字，如MART(Multiple Additiv...

2018-09-11 22:03:29 381

转载常用的排序算法的时间复杂度和空间复杂度

排序法最差时间分析平均时间复杂度稳定度空间复杂度冒泡排序 O(n2) O(n2) 稳定 O(1) 快速排序 O(n2) O(n*log2n) 不稳定 O(log2n)~O(n) 选择排序 O(n2) O(n2) 稳定 O(1) 二叉树排序 O(n2) ...

2018-08-28 09:59:04 383

通常机器学习每一个算法中都会有一个目标函数，算法的求解过程是通过对这个目标函数优化的过程。在分类或者回归问题中，通常使用损失函数（代价函数）作为其目标函数。损失函数用来评价模型的预测值和真实值不一样的程度，损失函数越好，通常模型的性能越好。不同的算法使用的损失函数不一样。　　损失函数分为经验风险损失函数和结构风险损失函数。经验风险损失函数指预测结果和实际结果的差别，结构风险损失函数是指经验风险...

2018-08-28 09:34:31 1876

转载 5个回归损失函数

大数据文摘出品编译：Apricock、睡不着的iris、JonyKai、钱天培“损失函数”是机器学习优化中至关重要的一部分。L1、L2损失函数相信大多数人都早已不陌生。那你了解Huber损失、Log-Cosh损失、以及常用于计算预测区间的分位数损失么？这些可都是机器学习大牛最常用的回归损失函数哦！机器学习中所有的算法都需要最大化或最小化一个函数，这个函数被称为“目标函数”。其中，我们一...

2018-08-28 09:30:23 1720 1

原创深入理解python中函数传递参数是值传递还是引用传递

在python中，不可变对象是共享的，创建可变对象永远是分配新地址例如x=1,1就是一个不可变变量，内存里只有一个1。当我把值1传递给函数里的某一个变量的时候，我实际上也传递了地址，因为内存里只有一个1。x=[1,2]x[0]=3这样修改对象，对象的内存地址是不变的。所以可以放心地将标记矩阵当成全局变量进行传递，随意修改，而不需要担心额外的空间消耗。但如果像 x=x+[3] 的...

2018-08-17 23:28:42 571 1

转载机器学习中正则化项L1和L2的直观理解

正则化（Regularization）机器学习中几乎都可以看到损失函数后面会添加一个额外项，常用的额外项一般有两种，一般英文称作ℓ1ℓ1-norm和ℓ2ℓ2-norm，中文称作L1正则化和L2正则化，或者L1范数和L2范数。L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。对于线性回归模型，使用L1正则化的模型建叫做Lasso回归，使用L2...

2018-08-01 11:24:58 252

原创统计一篇文章中出现次数最多的前k个词

应该考虑文件大小和词的多少，有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。于每个词x，取hash(x)%5000，然后按照该值存到5000个小文件（记为x0,x1,...x4999）中。这样每个文件大概是200k左右。如果其中的有的文件超过了1M大小，还可以按照类似的方法继续往下分，直到分解得到的小文件...

2018-08-01 11:03:29 3386

转载解决分类样本不平衡问题

样本不平衡会导致出现以下的问题：（1）少数类所包含的信息很有限，难以确定少数类数据的分布，即难以在内部挖掘规律，造成少数类的识别率低；（2）很多分类算法采用分治法，样本空间的逐渐划分会导致数据碎片问题，这样只能在各个独立的子空间中寻找数据的规律，对于少数类来说每个子空间中包含了很少的数据信息，一些跨空间的数据规律就不能被挖掘出来。（3）不恰当的归纳偏置系统在存在不确定时往往倾向于把样本...

2018-07-31 22:06:59 2001

转载深度学习基础之-梯度弥散和梯度爆炸及解决办法

梯度不稳定问题：深度神经网络中的梯度不稳定性，前面层中的梯度或会消失，或会爆炸。原因：前面层上的梯度是来自于后面层上梯度的乘乘积。当存在过多的层次时，就出现了内在本质上的不稳定场景，如梯度消失和梯度爆炸。一、梯度消失问题为了弄清楚为何会出现消失的梯度，来看看一个极简单的深度神经网络：每一层都只有一个单一的神经元。下图就是有三层隐藏层的神经网络： sigmoid函数的导数最大值...

2018-07-31 19:34:07 1156

转载激活函数-Sigmoid,Tanh,ReLu,softplus,softmax

不管是传统的神经网络模型还是时下热门的深度学习，我们都可以在其中看到激活函数的影子。所谓激活函数，就是在神经网络的神经元上运行的函数，负责将神经元的输入映射到输出端。常见的激活函数包括Sigmoid、TanHyperbolic(tanh)、ReLu、 softplus以及softmax函数。这些函数有一个共同的特点那就是他们都是非线性的函数。那么我们为什么要在神经网络中引入非线性的激活函数呢？引用...

2018-07-03 20:08:59 986

转载 SVR支持向量机回归

回归和分类从某种意义上讲，本质上是一回事。SVM分类，就是找到一个平面，让两个分类集合的支持向量或者所有的数据（LSSVM）离分类平面最远；SVR回归，就是找到一个回归平面，让一个集合的所有数据到该平面的距离最近。　　我们来推导一下SVR。根据支持向量机二分类博客所述，数据集合归一化后，某个元素到回归平面的距离为r=d(x)−g(x)r=d(x)−g(x)。另外，由于数据不可能都在回归平面上，距...

2018-06-08 16:44:36 5526

转载对AUC的重新理解

以前光看书，知道AUC是对ROC曲线下面积的计算，工作后才知道AUC常用来衡量模型结果好坏，而且AUC的物理意义是任取一个正例和任取一个负例，正例排序在负例之前的概率。但刚听到这种说法的时候，并不理解，于是寻找了一下解释资料。1 AUC,ROC简单解释 ROC（Receiver Operating Characteristic）曲线的横坐标为FPR(假正率)，纵坐标为TPR(真正率)，以下为关于F...

2018-06-05 20:19:54 1143

转载 CTR预估算法之FM, FFM, DeepFM及实践

目录目录CTR预估综述Factorization Machines(FM)算法原理代码实现Field-aware Factorization Machines(FFM)算法原理代码实现Deep FM算法原理代码实现参考文献CTR预估综述点击率(Click through rate)是点击特定链接的用户与查看页面，电子邮件或广告的总用户数量之比。它通常用于衡量某个网站的在线广告活动是否成功，以及电...

2018-04-21 09:12:19 1066

转载使用sklearn做单机特征工程

目录1 特征工程是什么？2 数据预处理　　2.1 无量纲化　　　　2.1.1 标准化　　　　2.1.2 区间缩放法　　　　2.1.3 标准化与归一化的区别　　2.2 对定量特征二值化　　2.3 对定性特征哑编码　　2.4 缺失值计算　　2.5 数据变换　　2.6 回顾3 特征选择　　3.1 Filter　　　　3.1.1 方差选择法　

2018-03-19 18:13:12 127

转载 [Machine Learning & Algorithm] 随机森林（Random Forest）

阅读目录1 什么是随机森林？2 随机森林的特点3 随机森林的相关基础知识4 随机森林的生成5 袋外错误率（oob error）6 随机森林工作原理解释的一个简单例子7 随机森林的Python实现8 参考内容回到顶部1 什么是随机森林？　　作为新兴起的、高度灵活的一种机器学习算法，随机森林（Random Forest，简称RF）拥有广泛的应用前景，从市场营销到医疗保健保险，既可以用来做市场营销模拟的...

2018-03-18 12:14:56 427

转载机器学习中的目标函数、损失函数、代价函数有什么区别？

作者：zzanswer链接：https://www.zhihu.com/question/52398145/answer/209358209来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。首先给出结论：损失函数和代价函数是同一个东西，目标函数是一个与他们相关但更广的概念，对于目标函数来说在有约束条件下的最小化就是损失函数（loss function）。举个例子解释一下...

2018-03-17 10:32:11 859

转载 xgboost原理

版权声明：如需转载，请注明出处http://blog.csdn.net/a819825294 http://blog.csdn.net/a819825294/article/details/51206410目录(?)[+]文章内容可能会相对比较多，读者可以点击上方目录，直接阅读自己感兴趣的章节。1.序　　距离上一次编辑将近10个月，幸得爱可可老师（微博）推荐，访问量陡增。最近毕业论文与xgboos...

2018-03-17 09:25:18 215

转载梯度提升树GBDT原理

版权声明：如需转载，请注明出处http://blog.csdn.net/a819825294 http://blog.csdn.net/a819825294/article/details/51188740目录(?)[-]模型学习过程算法GBDT并行1.模型提升方法实际采用加法模型（即基函数的线性组合）与前向分布算法。以决策树为基函数的提升方法称为提升树（boosting tree)。对分类问题决...

2018-03-17 09:24:09 251

转载 Python 生成器

通过列表生成式，我们可以直接创建一个列表。但是，受到内存限制，列表容量肯定是有限的。而且，创建一个包含100万个元素的列表，不仅占用很大的存储空间，如果我们仅仅需要访问前面几个元素，那后面绝大多数元素占用的空间都白白浪费了。所以，如果列表元素可以按照某种算法推算出来，那我们是否可以在循环的过程中不断推算出后续的元素呢？这样就不必创建完整的list，从而节省大量的空间。在Python中，这种一边

2018-03-06 10:24:19 113

转载图解 Python 深拷贝和浅拷贝

Python中，对象的赋值，拷贝（深/浅拷贝）之间是有差异的，如果使用的时候不注意，就可能产生意外的结果。下面本文就通过简单的例子介绍一下这些概念之间的差别。对象赋值直接看一段代码：Python1234567891011121314151617will = ["Will", 28, ["Python", "C#", "JavaScript"]]wilber = willprint id(will)...

2018-03-05 21:31:29 392

转载 PCA（Principal Component Analysis）数学分析

@author:Donald-Hu @theme:PCA数学分析 @time：2016/8/9PCA（Principal Component Analysis）是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示，可用于提取数据的主要特征分量，常用于高维数据的降维。网上关于PCA的文章有很多，但是大多数只描述了PCA的分析过程，而没有讲述其中的原

2018-03-01 18:51:00 370

转载通俗理解条件熵

1 信息熵以及引出条件熵我们首先知道信息熵是考虑该随机变量的所有可能取值，即所有可能发生事件所带来的信息量的期望。公式如下：我们的条件熵的定义是：定义为X给定条件下，Y的条件概率分布的熵对X的数学期望这个还是比较抽象，下面我们解释一下：设有随机变量（X,Y），其联合概率分布为条件熵H（Y|X）表示在已知随机变量X的

2018-01-11 16:10:55 1103

转载 Python中init和new的区别详解

__init__ 方法是什么？使用Python写过面向对象的代码的同学，可能对 __init__ 方法已经非常熟悉了，__init__ 方法通常用在初始化一个类实例的时候。例如：# -*- coding: utf-8 -*-class Person(object): """Silly Person""" def __init__(self, name, age):

2018-01-09 09:46:34 342

转载利用GBDT模型构造新特征

实际问题中，可直接用于机器学习模型的特征往往并不多。能否从“混乱”的原始log中挖掘到有用的特征，将会决定机器学习模型效果的好坏。引用下面一句流行的话：特征决定了所有算法效果的上限，而不同的算法只是离这个上限的距离不同而已。本文中我将介绍Facebook最近发表的利用GBDT模型构造新特征的方法1。论文的思想很简单，就是先用已有特征训练GBDT模型，然后利用GBDT模型学习到的

2018-01-02 22:29:24 541

转载 python中pandas.DataFrame对行与列求和及添加新行与列示例

123from pandas import DataFrameimport pandas as pdimport numpy as np生成DataFrame数据?1df = DataFrame(np.random.randn(4, 5), columns=['A

2017-12-05 13:14:15 3261

转载 pandas聚合和分组运算之groupby

pandas提供了一个灵活高效的groupby功能，它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。根据一个或多个键（可以是函数、数组或DataFrame列名）拆分pandas对象。计算分组摘要统计，如计数、平均值、标准差，或用户自定义函数。对DataFrame的列应用各种各样的函数。应用组内转换或其他运算，如规格化、线性回归、排名或选取子集等。计算透视表或交叉表。执行分位数分析以及其

2017-12-05 13:13:12 650

转载数据比赛大杀器----模型融合(stacking&blending)

参考文献链接英文版本 http://mlwave.com/kaggle-ensembling-guide/ 这里写链接内容这个是上面英文翻译过来的汉语翻译版本 kaggle比赛集成指南 http://m.blog.csdn.net/article/details?id=53054686搜狗比赛第五名的stacking思路 http://prozh

2017-11-20 12:43:30 577

转载 GBDT：梯度提升决策树

综述 GBDT(Gradient Boosting Decision Tree) 又叫 MART（Multiple Additive Regression Tree)，是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力较强的算法。 GBDT中的树是回归树（不是分类树），GBDT用来做回归预测，调整后也可以用于分类。

2017-11-10 17:08:29 320

转载 XGBoost-Python完全调参指南-参数解释篇

在analytics vidhya上看到一篇,写的很好。因此打算翻译一下这篇文章，也让自己有更深的印象。具体内容主要翻译文章的关键意思。原文见：http://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/这篇文章按照原文的分节，共分为三个部

2017-11-10 16:04:46 269

转载理解机器学习中的偏差与方差

学习算法的预测误差, 或者说泛化误差(generalization error)可以分解为三个部分: 偏差(bias), 方差(variance) 和噪声(noise). 在估计学习算法性能的过程中, 我们主要关注偏差与方差. 因为噪声属于不可约减的误差 (irreducible error).首先抛开机器学习的范畴, 从字面上来看待这两个词:偏差.这里的偏指的是偏离 , 那

2017-11-10 16:02:05 346

转载使用Pandas对数据进行筛选和排序

筛选和排序是Excel中使用频率最多的功能，通过这个功能可以很方便的对数据表中的数据使用指定的条件进行筛选和计算，以获得需要的结果。在Pandas中通过.sort和.loc函数也可以实现这两个功能。.sort函数可以实现对数据表的排序操作，.loc函数可以实现对数据表的筛选操作。本篇文章将介绍如果通过Pandas的这两个函数完成Excel中的筛选和排序操作。首选导入需要使用的Pandas

2017-10-23 16:27:53 2138

转载 Scikit-learn使用总结

在机器学习和数据挖掘的应用中，scikit-learn是一个功能强大的python包。在数据量不是过大的情况下，可以解决大部分问题。学习使用scikit-learn的过程中，我自己也在补充着机器学习和数据挖掘的知识。这里根据自己学习sklearn的经验，我做一个总结的笔记。另外，我也想把这篇笔记一直更新下去。1 scikit-learn基础介绍1.1 估计器（Estimator）估计器，很多

2017-10-20 16:49:15 284

转载 numpy中的matrix矩阵处理

numpy模块中的矩阵对象为numpy.matrix，包括矩阵数据的处理，矩阵的计算，以及基本的统计功能，转置，可逆性等等，包括对复数的处理，均在matrix对象中。 class numpy.matrix(data,dtype,copy):返回一个矩阵，其中data为ndarray对象或者字符形式；dtype:为data的type；copy:为bool类型。>>> a = np.matrix(

2017-10-19 13:16:30 270

转载 python列表、字典与csv

在日常数据分析时最常打交道的是csv文件和list,dict类型。涉及到的主要需求有：将一个二重列表[[],[]]写入到csv文件中从文本文件中读取返回为列表将一字典写入到csv文件中从csv文件中读取一个字典从csv文件中读取一个计数字典实现如下：# 功能：将一个二重列表写入到csv文件中# 输入：文件名称，数据列表def createListCSV(fileName

2017-10-15 15:04:23 1784

转载怎么理解二阶偏导与凸函数的Hessian矩阵是半正定的？

作者：grapeot链接：https://www.zhihu.com/question/40181086/answer/85197271来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。教科书上有严格的证明，这个答案试图通过类比来提供一些直观上的理解。大概的结论是，多元函数的Hessian矩阵就类似一元函数的二阶导。多元函数Hessian矩阵半正

2017-09-24 09:41:23 24098

ODPS权威指南完整版，带目录

在ROS中与其他器件使用十六进制串口通信

空空如也