2015年10月_mishidemudong

12月 11月 10月 09月 08月 07月 06月 05月

原创 GMM混合高斯模型理论基础（基于EM算法）

我们谈到了用 k-means 进行聚类的方法，这次我们来说一下另一个很流行的算法：Gaussian Mixture Model (GMM)。事实上，GMM 和 k-means 很像，不过 GMM 是学习出一些概率密度函数来（所以 GMM 除了用在 clustering 上之外，还经常被用于 density estimation ），简单地说，k-means 的结果是每个数据点被 assign 到其

2015-10-27 16:55:57 2312

转载 GraphLab Integration with Spark Open Source Release

Due to it’s ability to support a wide variety of data engineering tasks across a growing range data sources, Apache Spark has become an integral part of the Hadoop eco-system. In this post, we intro

2015-10-27 09:57:08 1460

翻译 Deep Learning: Doubly Easy and Doubly Powerful with GraphLab Create

Note: Many of the code snippets in this blog post can take a very long time without GPU speedup. Please install the GPU version of GraphLab Create to follow along. One of machine learning’s c

2015-10-27 09:15:59 871

翻译 Plot the decision surfaces of ensembles of trees on the iris dataset

Plot the decision surfaces of forests of randomized trees trained on pairs of features of the iris dataset.This plot compares the decision surfaces learned by a decision tree classifier (first col

2015-10-26 15:46:24 896

转载 GraphLab初学小感想

文章的摘要部分就说明了，高性能数据并行框架，像MapReduce，简化了大规模数据处理系统的设计和执行过程，但是他们没有很好的支持许多重要的数据挖掘和机器学习算法，会导致降低学习系统的效率。GraphLab框架是种基于图结构，拥有异步迭代计算，动态计算，很好序列化等特点。CMU的GraphLab小组把GraphLab部署在Amazon的EC2云平台，并跟几个主流的大规模数据处理框架进行PK

2015-10-25 22:32:54 1519

翻译 GraphLab：将大数据分析从理念运用到生产

GraphLab: Big Data Analytics Scaled From Inspiration to ProductionQ&A with Carlos Guestrin, CEO of GraphLabThe AWS Startup Spotlight features startups all over the world building innovative, d

2015-10-25 22:21:19 1379

原创 Ubuntu自带vi不好用的处理办法

在使用VI编辑器编辑文本时觉得实在是难用，因此找了几个解决方法如下：1. 安装vim full版本由于Ubuntu预安装的是tiny版本，就会导致我们在使用上的产生不便。所以我们要安装vim的full版本。首先，先卸掉旧版的vi，输入以下命令： sudo apt-get remove vim-common然后安装full版的vim，输入命令：sudo apt-get

2015-10-24 14:57:12 1087

原创 ubuntu 14.04 安装 JDK

第一步：下载jdk-7-linux-i586.tar.gz[plain] view plaincopywget -c http://download.oracle.com/otn-pub/java/jdk/7/jdk-7-linux-i586.tar.gz (注：如果下载不下来，建议使用迅雷下载，然后拷贝到Linux系统上。)第

2015-10-24 14:55:10 396

原创 python的easy_install安装指南

下载安装python安装工具下载地址：http://pypi.python.org/pypi/setuptools 可以找到正确的版本进行下载。win7 32位可以下载setuptools-0.6c11.win32-py2.7.exe 。Centos下的安装方法wget -q http://peak.telecommunity.com/dist/ez_setup.pypython ez_s

2015-10-22 11:52:05 563

转载 Libsvm和Liblinear各自特点和使用经验

Libsvm和Liblinear都是国立台湾大学的Chih-Jen Lin博士开发的，Libsvm主要是用来进行非线性svm 分类器的生成，提出有一段时间了，而Liblinear则是去年才创建的，主要是应对large-scale的data classification，因为linear分类器的训练比非线性分类器的训练计算复杂度要低很多，时间也少很多，而且在large scale data上的性

2015-10-21 15:20:48 2998

转载对线性回归、逻辑回归、各种回归的概念学习

回归问题的条件/前提：1）收集的数据2）假设的模型，即一个函数，这个函数里含有未知的参数，通过学习，可以估计出参数。然后利用这个模型去预测/分类新的数据。1. 线性回归假设特征和结果都满足线性。即不大于一次方。这个是针对收集的数据而言。收集的数据中，每一个分量，就可以看做一个特征数据。每个特征至少对应一个未知的参数。这样就形成了一个线性

2015-10-20 16:41:41 547

原创特征选择算法总结

1 综述(1) 什么是特征选择特征选择 ( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ) ，或属性选择( Attribute Selection ) ，是指从全部特征中选取一个特征子集，使构造出来的模型更好。 (2) 为什么要做特征选择在机器学习的实际应用中，特征数量往往较多，其

2015-10-20 16:36:14 6934

翻译 Binary Classfication: Credit risk prediction

SummaryThis sample demonstrates how to perform cost-sensitive binary classification in Azure ML Studio to predict credit risk based on information given on a credit application.Descripti

2015-10-20 11:26:57 790

转载 libsvm中的dec_values以及分类结果评分问题

最近一个图像识别项目里需要对分类的结果进行打分，因为使用的是libsvm3.12，一开始决定直接将svm_predict_values函数的dec_values作为评分返回，后来研究了之后才觉得里面有的东西还挺有趣。首先介绍一下SVM中的多分类方法。目前SVM多分类流行的策略有one-against-all以及one-against-one两种，libsvm中的多分类是采用的one

2015-10-19 22:10:56 6622 3

转载封装Libsvm与Liblinear（重要概念之返回预测类别的概率分数）

封装Libsvm与Liblinear开篇我们基于以下场景：假设我们已经用libsvm或者是Liblinear训练了一个模型，现在需要读入该模型并基于该模型对一个样本进行预测，返回预测的类标签以及相应的隶属度分数。从封装的角度我们需要考虑一下几个问题：如何规范输入，使得读入的数据在Libsvm与Liblinear上都可以直接运行系统如

2015-10-19 21:51:37 2203

转载 Spark：一个高效的分布式计算系统

概述什么是SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习

2015-10-16 17:43:54 465

原创 WEKA之TwoClassStats.java源码解读

/* * This program is free software; you can redistribute it and/or modify * it under the terms of the GNU General Public License as published by * the Free Software Foundation; either vers

2015-10-15 11:29:44 523

原创 WEKA之ThresholdCurve.java方法类解读

/* * This program is free software; you can redistribute it and/or modify * it under the terms of the GNU General Public License as published by * the Free Software Foundation; either vers

2015-10-15 11:27:36 1096

原创 IntelliJ Idea 常用快捷键列表

IntelliJ Idea 常用快捷键列表 Alt+回车导入包,自动修正Ctrl+N 查找类Ctrl+Shift+N 查找文件Ctrl+Alt+L 格式化代码Ctrl+Alt+O 优化导入的类和包Alt+Insert 生成代码(如get,set方法,构造函数等)Ctrl+E或者Alt+Shift+C 最近更改的代码Ctrl+R 替换文本

2015-10-14 10:48:16 380

转载 ROC曲线-阈值评价标准

ROC曲线指受试者工作特征曲线 / 接收器操作特性曲线(receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系，它通过将连续变量设定出多个不同的临界值，从而计算出一系列敏感性和特异性，再以敏感性为纵坐标、（1-特异性）为横坐标绘制成曲线，曲线下面积越大，诊断准确性越高。在ROC曲线上，最靠近

2015-10-13 16:20:45 610

原创数据分析：Weka，Matlab，R，SPSS，SAS等分析软件

1 功能角度weka是机器学习方面的工具（开源）。spss是数学工具（商业工具）。具体的说，weka的主要功能是模式分类，或者模式识别或者回归。包括特征的降维（PCA），特征选择，训练模型以及对测试样本进行分类测试，几乎包含了机器学习中的所有常用分类器。当然还有聚类以及结果的图形可视化功能。spss，侧重统计分析。包括基础的数学运算，联合分析，时间序列分析，多元尺度方法等，

2015-10-13 15:37:04 1896

原创算法研发工作中对于MPI和Spark的一些困惑？

我们组主要从事互联网广告中ML,DM相关算法的研发工作，由于mahout,weka之类很难适用于目前的工作场景或者说得到比较好的结果，所以主要的工作内容是基于业务数据研发新的模型（从样本数据的清洗和采样开始，工业界嘛，你懂的），并且最终提供可以实现的版本，支持公司业务。现在主要是用SAS、R、Matlab建模，然后通过C++，BLAS和MPI等实现，目前在生产环境中需要支持一个小型的MPI集群（本

2015-10-11 22:48:07 2320

转载分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵

跑完分类模型（Logistic回归、决策树、神经网络等），我们经常面对一大堆模型评估的报表和指标，如Confusion Matrix、ROC、Lift、Gini、K-S之类（这个单子可以列很长），往往让很多在业务中需要解释它们的朋友头大：“这个模型的Lift是4，表明模型运作良好。——啊，怎么还要解释ROC，ROC如何如何，表明模型表现良好……”如果不明白这些评估指标的背后的直觉，就很可能陷入这样

2015-10-08 10:33:46 1997

原创文本挖掘概念学习（一）

一、文本挖掘概念在现实世界中，可获取的大部信息是以文本形式存储在文本数据库中的，由来自各种数据源的大量文档组成，如新闻文档、研究论文、书籍、数字图书馆、电子邮件和Web页面。由于电子形式的文本信息飞速增涨，文本挖掘已经成为信息领域的研究热点。文本数据库中存储的数据可能是高度非结构化的，如WWW上的网页;也可能是半结构化的，如e-mail消息和一些XML网页:而其它的则可能是

2015-10-06 21:48:16 7532

转载网络爬虫Python试验

网络爬虫这次去杭州参加阿里巴巴的离线大数据处理暑期课，得到一个思路。之前一直纠结于没有数据要怎么训练我的旅行个性化推荐。毕设木有头绪啊，做不粗来要人命呀！现在觉得可以在网上爬一些数据下来，看看能不能分析出各个景点之间的关系。现在开贴记录自己的工作。 2013.7.24使用urllib。（3.0以后urllib2就整合到urllib中了，见【这里】）

2015-10-06 21:46:42 4418