千寻千梦-CSDN博客

原创机器学习－特征选择( Feature Selection )

特征选择

2017-07-25 08:48:36 3964

原创 Ubuntu 一些大数据挖掘与机器学习工具安装

UMlet UMLet是开源的UML建模工具。ubuntu下安装：sudo apt-get install umlet打开界面umlet

2017-06-26 09:35:04 1142

原创 Dropout

深度学习中的过拟合问题表现：在训练集上Loss和Accuracy都表现很好，而在测试集上一塌糊涂，训练模型基本上没有什么用处。过拟合产生原因：处理的是样本量较小，而DNN超强的拟合能力，所以很容易造成过拟合的情况出现。【文献5】另外，比如在文本分类上，dropout效果提升有限，分析原因可能是Reuters-RCV1数据量足够大，过拟合并不是模型的主要问题【文献1】怎么判断是欠拟合还是过拟合？模

2017-06-02 11:26:13 921

本文介绍了离群点（孤立点）检测的常见方法，以及应用各种算法时需要注意的问题。离群点是什么？异常对象被称作离群点。异常检测也称偏差检测和例外挖掘。孤立点是一个明显偏离与其他数据点的对象,它就像是由一个完全不同的机制生成的数据点一样。离群点检测是数据挖掘中重要的一部分，它的任务是发现与大部分其他对象显著不同的对象。大部分数据挖掘方法都将这种差异信息视为噪声而丢弃，然而在一些应用中，罕见的数据可能蕴含着更

2017-06-01 09:49:45 38310

原创 Spark Structured Streaming、Kafak整合

欢迎使用Markdown编辑器写博客SBT 依赖包： groupId = org.apache.spark artifactId = spark-sql-kafka-0-10_2.11 version = 2.1.1在Spark2.x中，Spark Streaming获得了比较全面的升级，称为Structured Streaming，和之前的很不同，功能更强大，效率更高，跟其他的

2017-05-26 13:56:49 1806

转载深度学习系列：GoogLeNet系列解读 [转发]

GoogLeNet系列解读[转发]http://blog.csdn.net/shuzfan/article/details/50738394

2017-03-16 09:30:32 634

原创 OpenCV图像处理-光流法-原理分析1-calcOpticalFlowFarneback

关于光流法全面的介绍和OpenCV代码，请参考：zouxy09的专栏 http://blog.csdn.net/zouxy09/article/details/8683859 本文和后续文章仅对光流法的原理进行补充。与上述参考文章里面已经介绍的内容不会重复。OpenCV中calcOpticalFlowFarnebackcv::calcOpticalFlowFarneback(prevgray,

2016-11-28 19:32:48 5843

原创 OpenCV图像处理-区域分割-形态学操作应用

分割的结果中通常包含不想要的干扰，如我们感兴趣的物体被干扰了，如由于反射对分割结果造成的干扰，这时，形态学操作提供了特别有用的方法，让我们调整和描述物体的形状。本文聚焦形态学操作的若干典型应用，不会对形态学操作的基本数学理论进行系统的阐述，也不会对OpenCV函数进行详细的介绍，因此需要您首先对形态学的基本理论有所了解。【1】利用膨胀操作提取物体的边界从一个彩色红苹果图像，经

2016-11-24 14:38:30 10541 1

原创 TensorFlow学习笔记

Tensor 学习完整笔记

2016-11-06 12:16:53 1523

转载支持向量机学习之2：核函数

SVM核函数通俗理解

2016-10-22 22:53:54 4359

原创支持向量机学习之3-SVR（回归）

支持向量机系列学习笔记包括以下几篇： Spark机器学习系列之13：支持向量机SVM ：http://blog.csdn.net/qq_34531825/article/details/52881804 支持向量机学习之2：核函数http://blog.csdn.net/qq_34531825/article/details/52895621 支持向量机学习之3：SVR（回归）http:/

2016-10-22 13:25:45 57543 1

原创 Spark机器学习系列之13：支持向量机SVM

SVM 理论 spark scikit

2016-10-21 13:07:25 11233 1

转载最优化问题学习笔记1-对偶理论

什么是对偶问题？每一个线性规划问题都存在一个与其对偶的问题，在求出一个问题解的同时，也给出了另一个问题的解。为什么研究对偶理论？当对偶问题比原始问题有较少约束时，求解对偶规划比求解原始规划要方便得多。一个简单的例子在上面的例子中，g(λ,ν)g(\lambda,\nu)定义为拉格朗日对偶函数，向量向量 λ 和 ν 为对偶变量或者拉格朗日乘子

2016-10-20 16:23:13 25986 2

转载机器学习与自然语言处理模型之一：最大熵模型

参考文献（1）http://blog.csdn.net/itplus/article/details/26550201 系列文章，系统全面（2）http://www.fuqingchuan.com/2015/03/714.html 非常好的例子（机器翻译）（3）http://blog.csdn.net/v_july_v/article/details/40508465?utm_source

2016-10-20 11:32:09 1146

原创机器学习算法（优化）之二：期望最大化（EM）算法

本文是我的一个学习笔记，错误和纰漏之处，敬请批评指正。EM算法概述 ~~~~~~（1）数学之美的作者吴军将EM算法称之为上帝的算法，EM算法也是大家公认的机器学习十大经典算法之一。EM是一种专门用于求解参数极大似然估计的迭代算法，具有良好的收敛性和每次迭代都能使似然函数值单调不减的优良性质。在统计机器学习、自然语言处理等领域应用非常广泛，许多统计学算法都是EM算法的体现，比如说隐含马尔科夫

2016-10-19 10:18:36 8414

原创 Mahout机器学习系列之-模糊c-均值聚类和狄利克雷过程聚类

模糊c-均值聚类（FCM） ~~~~~模糊c-均值聚类算法 fuzzy c-means algorithm (FCMA)或称（ FCM）。在众多模糊聚类算法中，模糊C-均值（ FCM）算法应用最广泛且较成功。 ~~~~~详细数学公式推到及迭代过程可参考http://blog.csdn.net/yueyedeai/article/details/26713015 ~~

2016-10-15 16:09:19 2688

原创常用的概率分布及其相互之间的联系与区别

二项式分布二项实验：结果为0，1的集合，比如说美国大选，假设只有两名候选人的情况且不可以弃权的情况下，选特朗普为1，选希拉里为0。再比如说种子的发芽率实验，发芽为1，不发芽为0。定义：（1）整个实验由n次相同的实验组成。（2）结果非0即1 （3）在一次实验中成功的概率为π\pi,且在不同的单次实验中保持不变（4）各次实验为独立实验（5）随机变量kk是在nn次实验中观测到的成功的

2016-10-10 09:42:43 8160 2

原创 Spark2.0机器学习系列之12：线性回归及L1、L2正则化区别与稀疏解

我的博客中参考了大量的文章或者别的作者的博客，有时候疏忽了并未一一标注，本着分享交流知识的目的，如果侵犯您的权利，这并非我的本意，如果您提出来，我会及时改正。概述线性回归拟合一个因变量与一个自变量之间的线性关系y=f(x)y=f(x)。 Spark中实现了：（1）普通最小二乘法（2）岭回归（L2正规化）（3）Lasso（L1正

2016-09-28 15:38:44 13486 1

原创 Spark2.0机器学习系列之11：聚类(幂迭代聚类， power iteration clustering， PIC)

幂迭代聚类， power iteration clustering， PIC 原理简介 Spark 代码参数设置

2016-09-26 22:33:46 11228 3

原创 Spark2.0机器学习系列之10：聚类(高斯混合模型 GMM）

Spark GMM 高斯混合模型概念参数设置模型评估代码

2016-09-25 18:46:55 11799

原创 Spark2.0机器学习系列之8：聚类(k-means,Bisecting k-means,Streaming k-means）

Spark Kmeans 三种算法分析

2016-09-25 18:32:06 10922

原创 ZooKeeper 学习笔记[未完]

% zkServer.sh start 启动一个本地的zooKeeper服务器 % zkServer.sh stop 停止—–% echo ruok | nc localhost 2181 检查zooKeerper是否正在运行 % echo conf — 检查服务器的配置信息 zoo.cfg

2016-09-24 11:11:41 643

原创 Spark-Hive

启动：spark-sql log4j.properties ： log4j.rootCategory=WARN,console 这样就不会有大量INFO输出了#hive-site.xml：metastore.warehouse.dirproperty> <name>hive.metastore.warehouse.dir</name> <value>/home/hadoop/hdfs

2016-09-21 22:18:43 2307

原创 Spark2.0机器学习系列之9：聚类算法(LDA）

聚类算法 LDA Spark2.0代码

2016-09-21 15:58:06 25387 1

原创 MySQL学习笔记

MySQL完整教程：http://www.runoob.com/mysql/mysql-tutorial.htmlMySQL数据类型：从文件中导入表更完整的信息请参考http://www.jb51.net/article/58093.htmLOAD DATA [LOW_PRIORITY | CONCURRENT] [LOCAL] INFILE 'file_name.txt' [REPLA

2016-09-08 09:35:48 830

原创 Python Pandas、Spark数据清洗

数据清洗去重去空值数据聚合

2016-09-06 10:30:58 5493

转载【转载】数学之美系列二十一：布隆过滤器（Bloom Filter）

转载文章，请链接原文：http://www.cricode.com/1083.html在日常生活中，包括在设计计算机软件时，我们经常要判断一个元素是否在一个集合中。比如在字处理软件中，需要检查一个英语单词是否拼写正确（也就是要判断它是否在已知的字典中）；在 FBI，一个嫌疑人的名字是否已经在嫌疑名单上；在网络爬虫里，一个网址是否被访问过等等。最直接的方法就是将集合中全部的元素存在计算机中，遇到一个新

2016-09-06 09:18:57 836

原创 Spark2.0 特征提取、转换、选择之二：特征选择、文本处理，以中文自然语言处理(情感分类为例)

Spark2.0文本特征提取

2016-09-04 11:15:47 5286

原创 Spark2.0 特征提取、转换、选择之一：数据规范化，String-Index、离散-连续特征相互转换

数据规范化标准化 Normalizer 规范化、StandardScaler、 MinMaxScaler、 MaxAbsScaler label 与feature的重新编号（码）。 VectorIndexer、 StringIndexer、 IndexToString 、oneHotEncoder、bucketizer分箱，QuantileDiscretizer

2016-09-02 17:40:44 13201

原创机器学习算法（优化）之一：梯度下降算法、随机梯度下降（应用于线性回归、Logistic回归等等）

本文介绍了机器学习中基本的优化算法—梯度下降算法和随机梯度下降算法，以及实际应用到线性回归、Logistic回归、矩阵分解推荐算法等ML中。

2016-09-01 09:14:51 5862

原创 Spark2.0机器学习系列之7：多类分类问题（方法归总和分类结果评估）

One-vs-Rest classifier将只能用于二分问题的分类方法扩展到多类Spark中那些方法可以用于多类分类多类分类结果评估（MulticlassClassificationEvaluator类）在前面一篇文章里面介绍的关于二分问题的评估方法，部分评估方法可以延伸到多类分类为问题。这些概念可以参考下面的文章：（http://blog.csdn.net/qq_34531825/a

2016-08-31 18:04:25 6534 1

原创 Spark2.0机器学习系列之6： MLPC（多层神经网络）

Spark2.0 MLPC（多层神经网络分类器）算法概述 MultilayerPerceptronClassifier（MLPC）这是一个基于前馈神经网络的分类器，它是一种在输入层与输出层之间含有一层或多层隐含结点的具有正向传播机制的神经网络模型。中间的节点使用sigmoid （logistic）函数，输出层的节点使用softmax函数

2016-08-31 09:11:16 9548

原创 Spark2.0机器学习系列之5：GBDT（梯度提升决策树）、GBDT与随机森林差异、参数调试及Scikit代码分析

GBDT概念与随机森林的差异 Spark2.0中参数调试

2016-08-30 09:04:33 20036 1

原创 Spark2.0机器学习系列之4：随机森林介绍、关键参数分析

随机森林算法介绍 Spark2.0中的参数设置代码分析

2016-08-29 14:19:32 9162

原创 PCA主成份分析（Spark 2.0）

Spark 2.0 Scikit PCA 主成分个数选择

2016-08-28 19:15:05 4647 3

原创 Spark2.0机器学习系列之1：基于Pipeline、交叉验证、ParamMap的模型选择和超参数调优

ML Tuning: model selection and hyperparameter tuning 交叉验证 crossValiation spark ParamMap 参数选择和调优K 折交叉验证Spark Cross Validation 代码

2016-08-27 11:44:55 8194 1

原创 Spark2.0机器学习系列之3：决策树及Spark 2.0-MLlib、Scikit代码分析

决策树种类差别Spark2.0 MLLib中决策树代码分析，参数选取，剪枝

2016-08-26 18:43:45 8390 3

转载基于矩阵分解的推荐算法-梯度下降算法-非并行计算[转载]

转载自博客园，请链接原文查看： http://www.cnblogs.com/kobedeshow/p/3651833.html?utm_source=tuicool&utm_medium=referral本文将要讨论基于矩阵分解的推荐算法，这一类型的算法通常会有很高的预测精度，也活跃于各大推荐系统竞赛上面，前段时间的百度电影推荐最终结果的前10名貌似都是把矩阵分解作为一个单模型，最后各种ense

2016-08-26 18:33:17 6276

原创 Spark常用设置，API和错误解决方法

Spark常用设置，常用API使用，及错误解决办法

2016-08-26 11:30:59 2012

原创 Spark GraphX学习笔记

Spark 2.0Graphx学习笔记概述、图计算应用场景、Spark中图的建立及图的基本操作利用顶点和边RDD建立一个简单的属性图、读取文件建立图三种视图及操作、Spark GraphX中的图的函数大全、结构操作子图subgraph、图的基本信息统计-度计算、Join 连接、相邻聚合消息聚合图算法工具包、数三角形、连通图、PageRank让链接来投票pregel、应用实例一Louvai

2016-08-26 08:42:45 19508

幂迭代聚类两篇论文

幂迭代聚类两篇论文-

空空如也