2018年04月_DemonHunter211

原创 OMT告诉你为什么人工智能和区块链这么火

阅读数：39 人工智能（AI）、区块链（Blockchain）、云计算（Cloud computing）、大数据（Big Data）并称为新时代四大核心金融科技。2018年以来，人工智能和区块链的消息更是铺天盖地，似乎有席卷全球之架势。特别是人工智能，不管你懂不懂科技，关不关心科技，都知道人工智能很厉害，谁也无法否认人工智能给人...

2018-04-28 14:06:13 397

一、区块链是什么？二、从业务角度学习区块链技术？三、从技术角度学习区块链技术？四、学习资料推荐与共享？-------------------------------------一、区块链是什么？区块链有很多的定义，大家的说法都不一样，业界都还没有统一。每个人心中都有自己的哈姆雷特。所以此处就不做定义了。也可以参考其他回答。那么我主要推荐一些关于区块链概念的学习资料，看完我所推荐的资料，你应该对这门...

2018-04-28 14:04:05 1064 1

原创 Kmeans、Kmeans++和KNN算法比较

摘要： K-Means介绍 K-means算法是聚类分析中使用最广泛的算法之一。它把n个对象根据他们的属性分为k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。其聚类过程可以用下图表示：如图所示，数据样本用圆点表示，每个簇的中心点用叉叉表示。K-Means介绍K-means算法是聚类分析中使用最广泛的算法之一。它把n个对象根据他们的属性分为k个聚类以便使得...

2018-04-28 13:52:16 235

原创介绍xgboost原理的好文（转载）

深度好文，感谢作者的分享原xgboost原理<div class="article-info-box"> <div class="article-bar-top d-flex"> <span class="time">2016年04月21日 10:15:09&lt

2018-04-28 13:50:16 311

原创 xgboost模型通过pmml存储，在java中调用

xgboost已经提供丰富的java接口，再通过pmml调用显得没多大的意义，java底层用的c++写的预测方法，超级快，不过还是记录下，直接看看python代码，数据还是鸾尾花数据：[python] view plain copyimport pandas as pd from xgboost.sklearn import XGBClassifier from sklearn2pmml im...

2018-04-28 13:46:50 5491

原创最快解释 SVM 原理

SVM -- 支持向量机，从名字就可以看出，跟向量紧密联系。好吧，说白了 SVM 就是将向量进行二分类的算法。什么是支持向量？在解释这个问题之前，先解释什么叫线性分割。一条线（一维）可以用一个点（零维）分成两半，一个平面（二维）可以用一条直线（一维）分成两半，一个空间（三维）可以用一个平面（二维）分成两半。。。假设我们的向量是 n 维，同样可以用 n-1 维的超平面分成两半，这就叫线性分割。设 ...

2018-04-28 13:45:12 214

原创 RSA非对称加密算法详解

加密概要加密技术是对信息进行编码和解码的技术，编码是把原来可读信息（又称明文）译成代码形式（又称密文），其逆过程就是解码（解密），加密技术的要点是加密算法，加密算法可以分为三类： 1. 对称加密 2. 非对称加密 3. 不可逆加密对称加密算法加密过程：将明文分成N个组，然后对各个组进行加密，形成各自的密文，最后把所有的分组密文进行合并，形成最终的密文。优点：算法公开、计算量小、加密速度快、加密...

2018-04-28 13:40:55 464

转载神经网络的过拟合问题以及L1、L2正则化

所谓过拟合，指的是当一个模型过为复杂之后，它可以很好的“记忆”每一个训练数据中随机噪音的部分而忘记了要去“学习”训练数据中通用的趋势。举一个极端的例子，如果一个模型的参数比训练数据的总说还多，那么只要训练数据不冲突，这个模型完全可以记住所有训练数据的结果从而使得损失函数为0。然而，过度拟合训练数据中的随机噪音虽然可以得到非常小的损失函数，但是对于未知数据可能无法做出可靠的判断。下图显示了模型训练...

2018-04-28 13:36:17 1237

原创区块链学习笔记1

1.什么是区块链？区块链是通过去中心，化去信任的方式集体维护一个可靠数据库的技术方案。参与系统中的任意多个节点把系统一段时间内的全部的信息，数据通过密码学算法计算和记录到一个数据块（区块block）并且生成该区块的指纹用于链接下一个区块和校验。2.主要特点。（1）去中心化（所有节点的权利和义务均等，无需中心化硬件或者组织）（2）去信任（系统中的规则，数据公开透明，节点之间无需建立信任）（3）集体维...

2018-04-28 11:57:37 299

原创区块链开发入门

区块链这么火，可是你很快就会发现，想要入门区块链编程，尤其是想要从零开始学习区块链编程，根本都找不到突破口！那么，要掌握区块链开发技术，应该学习哪些知识，应该学习哪些编程语言，才能快速入门区块链编程？如果你希望马上开始学习以太坊区块链应用开发，可以访问汇智网提供的出色的在线互动教程： - 以太坊应用开发入门教程 - 以太坊去中心化电商应用开发实战区块链是什么区块链是什么？一句话，它是一种特殊的分布...

2018-04-28 10:33:05 17883 1

原创 Centos7升级安装openssh7.5

前言：因centos7自带的ssh版本较低，存在高危漏洞，故升级到最新版本（目前是7.5pl）。注：升级ssh存在一定的危险性，一旦不成功可能无法通过远程连接到系统，因此在升级之前最好先安装vnc或者telnet等远程服务，安装方法可以查看我的其它相关文档。1、准备工作：查看下当前SSH版本：[root@bogon ~]# ssh -VOpenSSH_6.6.1p1, OpenSSL 1.0.1...

2018-04-27 17:59:23 2176 1

原创 Linux tar命令解压时提示时间戳异常的处理办法

在Linux服务器上的文件会有3个时间戳信息访问时间（Access）、修改时间（Modify）、改变时间（Change），都是存放在该文件的Inode里面问题描述：　　公司网站是前后端分离的，所有的静态页面全部都需要单独部署，使用的是云服务。部署方式是通过 jenkins 从指定的 SVN 地址把前端静态页面检出到 jenkins服务器，且每次检出的代码前都会把上一次的全部删除掉，也就是在检...

2018-04-27 15:57:33 5142

原创别再提程序员应届年薪20万了，人工智能已经年薪60万了！

对人工智能而言，2017是不平凡的一年：AlphaGo再胜人类腾讯宣布进军AI百度无人驾驶汽车上五环AI教育要从娃娃抓起寒武纪成全球AI芯片首个独角兽阿里巴巴成立达摩院类人机器人Sophia首获公民身份国家正式公布人工智能四大平台..........近年来，人工智能技术在各行各业中的应用越来越普及，相关专业技术人才也是供不应求，各大公司或是创业公司不惜重金招募AI人才。最近一项统计显示，人工智能相...

2018-04-27 14:38:54 790

原创使用 Go-Ethereum 1.7.2搭建以太坊私有链

1、什么是Ethereum(以太坊)　　以太坊（Ethereum）并不是一个机构，而是一款能够在区块链上实现智能合约、开源的底层系统，以太坊从诞生到2017年5月，短短3年半时间，全球已有200多个以太坊应用诞生。以太坊是一个平台和一种编程语言，使开发人员能够建立和发布下一代分布式应用。以太坊可以用来编程，分散，担保和交易任何事物：投票，域名，金融交易所，众筹，公司管理，合同和大部分的协议，知...

2018-04-27 11:45:09 465

原创使用 Go-Ethereum 1.7.2搭建以太坊私有链

1、什么是Ethereum(以太坊)　　以太坊（Ethereum）并不是一个机构，而是一款能够在区块链上实现智能合约、开源的底层系统，以太坊从诞生到2017年5月，短短3年半时间，全球已有200多个以太坊应用诞生。以太坊是一个平台和一种编程语言，使开发人员能够建立和发布下一代分布式应用。以太坊可以用来编程，分散，担保和交易任何事物：投票，域名，金融交易所，众筹，公司管理，合同和大部分的协议，知...

2018-04-27 11:25:16 432

原创优化算法——拟牛顿法之L-BFGS算法

一、BFGS算法在“优化算法——拟牛顿法之BFGS算法”中，我们得到了BFGS算法的校正公式：利用Sherman-Morrison公式可对上式进行变换，得到令，则得到：二、BGFS算法存在的问题在BFGS算法中，每次都要存储近似Hesse矩阵，在高维数据时，存储浪费很多的存储空间，而在实际的运算过程中，我们需要的是搜索方向，因此出现了L-BFGS算法，是对BFGS算法的一种改进算法...

2018-04-26 16:12:10 702

原创 zabbix3.4.2的安装及配置

zabbix3.4.2的安装及配置是建立在lnmp环境搭建的基础上的，如果对lnmp环境有疑问请移步至： https://blog.csdn.net/kwame211/article/details/80008309一、下载编译安装 1.1下载源码包wget -O zabbix-3.4.2.tar.gz http://sourceforge.net/projects/zabbix/files/ZA...

2018-04-20 17:42:04 330

原创 zabbix安装收获－WARNING: 'aclocal-1.14' is missing on your system

linux 编译 'aclocal-1.14' is missing on your system2017-04-10 20:15 by youxin, 2925 阅读, 0 评论, 收藏, 编辑centos编译出现：类似情况: $tar -xvf libpcap-1.0.0.tar.gz $cd libpcap-1.0.0.tar.gz $./configure ...

2018-04-20 09:15:49 942

原创 lnmp搭建（Nginx1.12.1；mysql5.7.20；php7.2.0）

安装依赖包：#yum install gcc bison bison-devel zlib-devel libmcrypt-devel mcrypt mhash-devel openssl-devel libxml2-devel libcurl-devel bzip2-devel readline-devel libedit-devel sqlite-devel libpng-devel libj...

2018-04-20 09:15:38 321

原创 NLP15-基于keras的中文情感挖掘试探

摘要：keras开发，tf为后端；采用了两个样本（ChnSentiCorp_htl_ba_2000与imdb），三个神经网络的试探性运行（全连接的一般神经网络NN，LSTM，CNN），感觉keras比tf写代码更简单。对于NN只要参数充够的多，会拟合得很好，不过这样产生了过拟合；LSTM比CNN运行的效果好很多。 keras的中文文档：http://keras-cn.readthedocs.io...

2018-04-19 15:55:19 367

原创零基础学SVM—Support Vector Machine(一)

如果你是一名模式识别专业的研究生，又或者你是机器学习爱好者，SVM是一个你避不开的问题。如果你只是有一堆数据需要SVM帮你处理一下，那么无论是Matlab的SVM工具箱，LIBSVM还是python框架下的SciKit Learn都可以提供方便快捷的解决方案。但如果你要追求的不仅仅是会用，还希望挑战一下“理解”这个层次，那么你就需要面对一大堆你可能从来没听过的名词，比如：非线性约束条件下的最优化、...

2018-04-19 15:49:46 244

原创 umount时目标忙解决办法

在删除osd后umount时，始终无法umonut，可以通过fuser查看设备被哪个进程占用，之后杀死进程，就可以顺利umount了。[root@node2 ~]# umount /var/lib/ceph/osd/ceph-1umount: /var/lib/ceph/osd/ceph-1：目标忙。 (有些情况下通过 lsof(8) 或 fuser(1) 可以 ...

2018-04-19 15:46:37 6902

原创机器学习算法KNN简介及实现

算法简介KNN(K近邻算法)是一种不需要学习任何参数同时也非常简单的机器学习算法，既可以用来解决分类问题也可以用来解决回归问题。直观解释这个算法就是'近朱者赤，近墨者黑'，当输入一个新样本时，根据与其相近的样本值来估计新输入的样本。如下图所示新输入的样本会被分类为W1。影响算法的几个因子在了解算法大体的思路后，其实还有几个问题需要继续深究:1、如何表达两个样本的距离(相似度)？ 2、KNN中的K值...

2018-04-19 15:44:21 369

原创 GAN 的发展对于研究通用人工智能有什么意义？

GAN对于人工智能的意义，可以从它名字的三部分说起：Generative Adversarial Networks。为了方便讲述，也缅怀过去两周在某论坛上水掉的时间，我先从Networks讲起。Networks：（深度）神经网络自从12年AlexNet横空出世后，神经网络俨然已成为现在learning的主流。比起贝叶斯学派的强先验假设（priori），SVM在核函数（kernel）上的反复钻研，神...

2018-04-19 15:42:43 328

原创 Gan（生成式对抗网络）

生成式对抗网络（GAN, Generative Adversarial Networks ）是一种深度学习模型，是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中（至少）两个模块：生成模型（Generative Model）和判别模型（Discriminative Model）的互相博弈学习产生相当好的输出。原始 GAN 理论中，并不要求 G 和 D 都是神经网络，只需要是能拟合相应生...

2018-04-19 15:40:09 295

原创图解机器学习的常见算法

每当提到机器学习，大家总是被其中的各种各样的算法和方法搞晕，觉得无从下手。确实，机器学习的各种套路确实不少，但是如果掌握了正确的路径和方法，其实还是有迹可循的，这里我推荐SAS的Li Hui的这篇博客，讲述了如何选择机器学习的各种方法。另外，Scikit-learn 也提供了一幅清晰的路线图给大家选择：其实机器学习的基本算法都很简单，下面我们就利用二维数据和交互图形来看看机器学习中的一些基本算法以...

2018-04-19 15:34:40 197

原创 GBDT XGBOOST的区别与联系

Xgboost是GB算法的高效实现，xgboost中的基学习器除了可以是CART（gbtree）也可以是线性分类器（gblinear）。传统GBDT以CART作为基分类器，xgboost还支持线性分类器，这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归（分类问题）或者线性回归（回归问题）。传统GBDT在优化时只用到一阶导数信息，xgboost则对代价函数进行了二阶泰勒展开，同时用到...

2018-04-19 10:43:13 274

原创 RF GBDT XGBOOST的区别与联系

Gradient boosting(GB) 机器学习中的学习算法的目标是为了优化或者说最小化loss Function， Gradient boosting的思想是迭代生多个（M个）弱的模型，然后将每个弱模型的预测结果相加，后面的模型Fm+1(x)基于前面学习模型的Fm(x)的效果生成的。Gradient boosting Decision Tree(GBDT) 　　GB算法中最典型的基学习器是决...

2018-04-19 10:42:38 358

原创 adaboost和GBDT的区别以及xgboost和GBDT的区别

AdaBoost:提高那些被前一轮弱分类器错误分类样本的权值，而降低那些被正确分类样本的权值。这样一来，那些没有得到正确分类的数据，由于其权值的加大而受到后一轮的弱分类器的更大关注，于是，分类问题就被一系列的弱分类器“分而治之”。至于第二个问题，即弱分类器的组合，AdaBoost采取加权多数表决的方法。具体地，加大分类误差率小的弱分类器的权值，使其在表决中起较大的作用，减小分类误差率较大的弱分类器...

2018-04-19 10:39:47 331

原创零基础学SVM—Support Vector Machine(一)

如果你是一名模式识别专业的研究生，又或者你是机器学习爱好者，SVM是一个你避不开的问题。如果你只是有一堆数据需要SVM帮你处理一下，那么无论是Matlab的SVM工具箱，LIBSVM还是python框架下的SciKit Learn都可以提供方便快捷的解决方案。但如果你要追求的不仅仅是会用，还希望挑战一下“理解”这个层次，那么你就需要面对一大堆你可能从来没听过的名词，比如：非线性约束条件下的最优化、...

2018-04-18 17:52:58 1070 2

原创随机森林小结

1.算法原理：随机森林，是基于bagging的一种并行式集成学习方法，可以用来做分类、回归。随机森林是一个包含多个决策树的分类器，并且其输出的类别是由基学习器输出的类别的众数而定。通过自助法（bootstrap）重采样技术，从原始训练样本集N中有放回地重复随机抽取N个样本生成新的训练样本集合，然后根据自助样本集生成k个分类树组成随机森林。在构造第i棵决策树时，在每个节点随机选择m（通常log2d...

2018-04-18 17:26:28 516

原创 HMM（隐马尔可夫模型）

隐马尔可夫模型（Hidden Markov Model，HMM）是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析，例如模式识别。是在被建模的系统被认为是一个马尔可夫过程与未观测到的（隐藏的）的状态的统计马尔可夫模型。下面用一个简单的例子来阐述：假设我手里有三个不同的骰子。第一个骰子是我们平常见的骰子（称这个骰子...

2018-04-18 16:45:41 260

原创各种聚类算法的介绍和比较

最近项目用到聚类算法，将其系统的总结一下。一、简要介绍1、聚类概念聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇，使得同一个簇内的数据对象的相似性尽可能大，同时不在同一个簇中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起，不同数据尽量分离。2、聚类和分类的区别聚类技术通常又被称为无监督学习，因为与监督学习不同，在聚类中那些表示数据类别的分类或者分组信息是...

2018-04-18 16:41:07 4696 1

原创【人工智能】各种机器学习的应用场景分别是什么？

Statsbot数据科学家Daniil Korbut写过一篇《Machine Learning Algorithms: Which One to Choose for Your Problem》，简明扼要地介绍了一些比较流行的机器学习算法的典型应用场景，下面摘录其中部分内容（由原作者授权论智翻译）：线性回归和线性分类器这些可能是机器学习中最简单的算法。你有对象（矩阵A）的特征x1，… xn，以及相...

2018-04-18 16:27:29 2292

原创预测算法——指数平滑法

目录•1.指数平滑定义及公式•2.一次指数平滑•3二次指数平滑•4.三次指数平滑•5指数平滑系数α的确定1、指数平滑的定义及公式产生背景：指数平滑由布朗提出、他认为时间序列的态势具有稳定性或规则性，所以时间序列可被合理地顺势推延；他认为最近的过去态势，在某种程度上会持续的未来，所以将较大的权数放在最近的资料。基本原理：指数平滑法是移动平均法中的一种，其特点在于给过去的观...

2018-04-18 16:25:02 2467

原创遗传算法详解（GA）

遗传算法照例先给出科学定义：遗传算法（Genetic Algorithm, GA）起源于对生物系统所进行的计算机模拟研究。它是模仿自然界生物进化机制发展起来的随机全局搜索和优化方法，借鉴了达尔文的进化论和孟德尔的遗传学说。其本质是一种高效、并行、全局搜索的方法，能在搜索过程中自动获取和积累有关搜索空间的知识，并自适应地控制搜索过程以求得最佳解。再给出相关术...

2018-04-18 16:23:14 625

原创梯度提升决策树-GBDT（Gradient Boosting Decision Tree）

研究GBDT的背景是业务中使用到了该模型，用于做推荐场景，当然这里就引出了GBDT的一个应用场景-回归，他的另外一个应用场景便是分类，接下来我会从以下几个方面去学习和研究GBDT的相关知识，当然我也是学习者，只是把我理解到的整理出来。本文参考了网上各路大神的笔记，在此感谢！Boosting&Bagging集成学习方法不是单独的一个机器学习算法，而是通过构建多个机器学习算法来达到一个强学习器...

2018-04-18 16:15:48 549

原创机器学习中的AUC理解

混淆矩阵(Confusion matrix)混淆矩阵是理解大多数评价指标的基础，毫无疑问也是理解AUC的基础。丰富的资料介绍着混淆矩阵的概念，下边用一个实例讲解什么是混淆矩阵如有100个样本数据，这些数据分成2类，每类50个。分类结束后得到的混淆矩阵为：说明： 40个为0类别的，预测正确，60个事实是0类别的给预测为1类别的 40个为1类别的，预测正确，60个事实是1类别的给预测为0类别的其对应...

2018-04-18 16:14:39 4151 1

原创 SVM(Support Vector Machine)读书笔记二（支持向量和Kernel方法）

在一个线性不可分的样本中，用添加多次项特征可以将两类样本分开，具体原理请参考这里，用SVM分类器也是同样道理。如果两类样本交叉越多，需要越高次的特征，模型就越复杂，这在存储上和计算资源上都是很大的开销。SVM用kernel方法就解决了这个问题，kernel方法是将高维度的计算放到低维度来做，最后得到的是高纬度上的模型。具体原理请看下面的推导。特征转换如果样本在低纬度空间不可分，那么可以将样本的特...

2018-04-18 16:11:47 201

原创 linux查看哪个进程占用磁盘IO

方法一：$ iotop -oP命令的含义：只显示有I/O行为的进程测试结果：方法二：$ pidstat -d 1命令的含义：展示I/O统计，每秒更新一次测试结果：注意：以上两个命令都需要内核版本支持kernels 2.6.20 and later only更多的参数请参阅man手册...

2018-04-16 10:49:34 1880

Flink1.11中文文档

空空如也