2017年02月_幸运六叶草

转载【机器学习基础】机器学习基础引入

机器学习是什么 “机器学习”是人工智能的核心研究领域之一，其最初的研究动机是为了让计算机系统具有人的学习能力以便实现人工智能。事实上，由于“经验”在计算机系统中主要是以数据的形式存在的，因此机器学习需要设法对数据进行分析，这就使得它逐渐成为智能数据分析技术的创新源之一。机器学习是构建复杂系统的一种方法，也许依靠我们的脑力把处理一个问题的所有规则写成程序可能不容易做到，那么我们就让机器自

2017-02-28 14:17:06 537

转载【机器学习实验】scikit-learn的主要模块和基本使用

引言对于一些开始搞机器学习算法有害怕下手的小朋友，该如何快速入门，这让人挺挣扎的。在从事数据科学的人中，最常用的工具就是R和Python了，每个工具都有其利弊，但是Python在各方面都相对胜出一些，这是因为scikit-learn库实现了很多机器学习算法。加载数据(Data Loading) 我们假设输入时一个特征矩阵或者csv文件。首先，数据应该被载入内存中。

2017-02-27 20:43:21 819

pandas作者Wes McKinney 在【PYTHON FOR DATA ANALYSIS】中对pandas的方方面面都有了一个权威简明的入门级的介绍，但在实际使用过程中，我发现书中的内容还只是冰山一角。谈到pandas数据的行更新、表合并等操作，一般用到的方法有concat、join、merge。但这三种方法对于很多新手来说，都不太好分清使用的场合与用途。今天就pandas官网中关于数据合并

2017-02-27 20:13:05 743

转载 Stanford机器学习课程笔记——LR的公式推导和过拟合问题解决方案

Stanford机器学习课程笔记——LR的公式推导和过拟合问题解决方案 1. Logistic Regression 前面说的单变量线性回归模型和多变量线性回归模型，它们都是线性的回归模型。实际上，很多应用情况下，数据的模型不是一个简单的线性表示就可以搞定的（后面的稀疏表示和字典学习又再次回到的线性表示，当然这个是后话）。更多的时候，我们需要建立一个

2017-02-27 13:24:04 843

转载 hive的工作原理

hive就是一个将sql语句转化为MR工具 hive的工作原理： 1、使用antlr定义sql语法，（详细见hive.g），由antlr工具将hive.g编译为两个java文件：HiveLexer.java HiveParser.java，可以将输入的sql解析为ast树 2、org.apache.hadoop.hive.ql.Driver对ast树进行初步的解析（combile

2017-02-27 10:48:41 1987

转载 hive中order by,sort by, distribute by, cluster by作用以及用法

1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的，会对查询的结果做一次全局排序，所以说，只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理（不管有多少map，也不管文件有多少的block只会启动一个reducer）。但是对于大量数据这将会消耗很长的时间去执行。这里跟传统的sql

2017-02-24 18:36:24 344

转载机器学习算法与Python实践之（二）支持向量机（SVM）初级

机器学习算法与Python实践之（二）支持向量机（SVM）初级 zouxy09@qq.com http://blog.csdn.net/zouxy09 机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python，然后也想对一些机器学习算法加深下了解，所以就想通过Python来实现几个比较常用的机器学习算法。恰好遇见这本同样定

2017-02-23 18:56:12 398

转载支持向量机通俗导论（理解SVM的三层境界）

支持向量机通俗导论（理解SVM的三层境界）作者：July 。致谢：pluskid、白石、JerryLead。说明：本文最初写于2012年6月，而后不断反反复复修改&优化，修改次数达上百次，最后修改于2016年11月。声明：本文于2012年便早已附上所有参考链接，并注明是篇“学习笔记”，且写明具体参考了pluskid等人的文章。文末

2017-02-16 20:27:46 912

转载 lag和lead 分析函数

oracle 的分析函数是非常好的一个功能，借助它们，我们可以很方便的实现一些特殊的语句需求，省去了自己实现的诸多麻烦。今天用到了lag 和lead 这两个分析函数，稍稍整理一下。 lag 和lead 可以获取结果集中，按一定排序所排列的当前行的上下相邻若干offset 的某个行的某个列(不用结果集的自关联）； lag ，lead 分别是向前，向后； lag 和lead

2017-02-16 19:03:49 4304

转载机器学习算法与Python实践之（一）k近邻（KNN）

机器学习算法与Python实践之（一）k近邻（KNN）机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python，然后也想对一些机器学习算法加深下了解，所以就想通过Python来实现几个比较常用的机器学习算法。恰好遇见这本同样定位的书籍，所以就参考这本书的过程来学习了。一、kNN算法分析 K最近邻（k-Nearest Neigh

2017-02-10 09:58:59 801

转载机器学习-数据归一化方法

原文：http://www.tuicool.com/articles/BVFRnqz 本文主要介绍两种基本的数据归一化方法。 min-max标准化（Min-Max Normalization）Z-score标准化方法归一化方法有两种形式，一种是把数变为（0，1）之间的小数，一种是把有量纲表达式变为无量纲表达式。数据标准化（归一化）处理是数据挖掘的一项基础工作，不同评价指

2017-02-08 17:41:08 1770

转载机器学习之归一化

之前我们讨论了几个机器学习的模型，线性回归模型(Linear Regression)和逻辑回归模型(Logistic Regression)，这一次我们讨论一下关于模型数据拟合的问题以及归一化方法(Regularization)。过拟合问题(The Problem of Overfitting) 如果我们有非常非常多的特征，我们通过学习得到的假设可能会非常适应训练集（代价函数的值

2017-02-08 16:32:50 892

AnneQiQi的博客