2016年08月_铭霏

原创 534 Policy requires SSL错误

完成后启动IIS；分两步进行（全局设置，FTP服务开启）：一，全局设置：1.点击IIS左边主页，需要设置的有：服务器证书（SSL），FTP SSL设置，FTP身份验证，FTP授权规则2.服务器证书（SSL）：进入-创建自签名证书-取个名字-OK3.FTP SSL 设置：进入-选择上一步创建的证书

2016-08-24 19:58:42 7362

原创 Hadoop、Hbase、Hive版本兼容性

装Spark的时候想当然的装了Hadoop的最新版 2.6.x结果后面再安装HBase和Hive的时候遇到了彼此无法兼容的问题总有一个安装无法连接其他 ..现在记录一下这三者的关系

2016-08-24 16:19:47 10291 2

转载集成学习实践(sklearn)

1 Random Forest和Gradient Tree Boosting参数详解　　在sklearn.ensemble库中，我们可以找到Random Forest分类和回归的实现：RandomForestClassifier和RandomForestRegression，Gradient Tree Boosting分类和回归的实现：GradientBoostingClassifier和Gr

2016-08-24 14:29:58 1073

转载集成学习理论(sklearn)

1 集成学习是什么？　　我们还是花一点时间来说明一下集成学习是什么，如果对此有一定基础的同学可以跳过本节。简单来说，集成学习是一种技术框架，其按照不同的思路来组合基础模型，从而达到其利断金的目的。　　目前，有三种常见的集成学习框架：bagging，boosting和stacking。国内，南京大学的周志华教授对集成学习有很深入的研究，其在09年发表的一篇概述性论文《Ensemble L

2016-08-24 14:04:08 922

转载数据挖掘初探(skleran)

1 使用sklearn进行数据挖掘1.1 数据挖掘的步骤　　数据挖掘通常包括数据采集，数据分析，特征工程，训练模型，模型评估等步骤。　　我们使用sklearn进行虚线框内的工作（sklearn也可以进行文本特征提取）。通过分析sklearn源码，我们可以看到除训练，预测和评估以外，处理其他工作的类都实现了3个方法：fit、transform和fit_transform。从命名中

2016-08-24 13:25:51 1789

转载特征工程（sklearn）

一、特征工程是什么有这么一句话在业界广泛流传：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢？顾名思义，其本质是一项工程活动，目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳，人们认为特征工程包括以下方面：　　特征处理是特征工程的核心部分，sklearn提供了较为完整的特征处理方法，包

2016-08-24 13:09:33 10706

原创 PCA(sklearn参数详解)

本篇不介绍PCA ，关于PCA收藏过另外几篇写的很好的博文本篇仅针对sklearn中的PCA作记录一、代码怎么写sklearn.decomposition.PCA(n_components=None, copy=True, whiten=False) 二、关于参数n_components: 意义：PCA算法中所要保

2016-08-23 21:47:46 30119 5

转载机器学习中的范数规则化之L0、L1与L2范数

今天我们聊聊机器学习中出现的非常频繁的问题：过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择问题。这里因为篇幅比较庞大，为了不吓到大家，我将这个五个部分分成两篇博文。知识有限，以下都是我一些浅显的看法，如果理解存在错误，希望大家不吝指正。谢谢。监督机器学习问题无非就是“minimizeyour error while

2016-08-19 14:04:17 592

转载 Python给函数传递不定关键字的参数

转载请注明来自公众号『数据挖掘机养成记』前言在上一篇文章『[Python]给函数传递不定个数的参数』中，我们主要讲解了*在函数定义和函数调用阶段的不同作用，并留了一个小问题:我们用*定义了add_int(*a)函数，现在有a_list=[1,2,3]，那么我们调用add_int(*a_list)会产生什么效果呢？如果文章你已看懂，那不难知道，最后被传到函

2016-08-19 13:49:09 3603 1

转载 Python给函数传递不定个数的参数

转载：来自公众号『数据挖掘机养成记』问题起源在Python中常常看到有这样的函数，它们的入口参数的个数是不定的。比如有如下代码In: print zip([1, 2],[3, 4])Out: [(1, 3), (2, 4)]In: print zip([1, 2],[3, 4],[5, 6])Out: [(1, 3, 5), (2, 4, 6)]其中zip是Pyt

2016-08-19 13:42:47 35008 2

原创 Random Forest（sklearn参数详解)

本篇不是介绍RF的，关于RF网上有很多通俗易懂的解释西瓜书与统计学习方法等很多教材中的解释也都足够本篇仅针对如何使用sklearn中的RandomForestClassifier作记录一、代码怎么写class sklearn.ensemble.RandomForestClassifier(n_estimators=10, crite-rion=’gini’, max_dep

2016-08-17 10:32:42 75459 5

转载 Python中的sorted函数以及operator.itemgetter函数

operator.itemgetter函数operator模块提供的itemgetter函数用于获取对象的哪些维的数据，参数为一些序号（即需要获取的数据在对象中的序号），下面看例子。a = [1,2,3] >>> b=operator.itemgetter(1) //定义函数b，获取对象的第1个域的值>>> b(a) 2 >>> b=operator.it

2016-08-16 12:33:00 359

原创 k-means++和k-means||

一、k-means算法缺点:1、需要提前指定k2、k-means算法对初始化非常敏感k-means++主要用来解决第二个缺点二、k-means++算法原理分析k-means++算法选择初始聚类中心的基本原则是：初始的聚类中心之间的相互距离要尽可能的远。它选择初始聚类中心的步骤是：（1）从输入的数据点集合中随机选择一个点作为第一个聚类中心；（2

2016-08-15 17:22:48 14219

铭霏的记事本