- 博客(683)
- 资源 (104)
- 收藏
- 关注
原创 Matplotlib Toolkits:地图绘制工具
httpMatplotlib Toolkits:地图绘制工具 Basemap(Not distributed with matplotlib,要手动安装)Plots data on map projections, with continental and political boundaries, see basemap docs.安装先下载anaconda
2016-11-30 10:29:35
11025
1
原创 Matplotlib Toolkits:python高级绘图库seaborn
http://blog.csdn.net/pipisorry/article/details/49515745Seaborn介绍seaborn(Not distributed with matplotlib)seaborn is a highlevel interface for drawing statistical graphics with matplotlib. Itaims to mak
2016-11-25 22:51:55
16949
原创 信息论:熵与互信息
熵/信息熵http://这篇文章主要讲:熵, 联合熵(joint entropy),条件熵(conditional entropy),相对熵(relative entropy,KL 距离),互信息(mutual information),交叉熵(cross entropy),困惑度(perplexity)。熵/信息熵在信息论中,熵是接收的每条消息中包含的信息的平均量,又被称为信息熵、信源熵、平均自信息量。这里, 消息代表来自分布或数据流中的事件、样本或特征。
2016-11-25 21:18:43
99358
15
原创 Scikit-learn:最近邻搜索sklearn.neighbors
http://blog.csdn.net/pipisorry/article/details/53156836ball treek-d tree也有问题[最近邻查找算法kd-tree ]。矩形并不是用到这里最好的方式。偏斜的数据集会造成我们想要保持树的平衡与保持区域的正方形特性的冲突。另外,矩形甚至是正方形并不是用在这里最完美的形状,由于它的角。如果图6中的圆
2016-11-25 16:01:14
25475
5
原创 Spark:聚类算法
Spark:聚类算法 Kmeans聚类KMeans算法的基本思想是初始随机给定K个簇中心,按照最邻近原则把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心,从而确定新的簇心。一直迭代,直到簇心的移动距离小于某个给定的值。K-Means聚类算法主要分为三个步骤:(1)第一步是为待聚类的点寻找聚类中心(2)第二步是计算每个点到聚类中心的距离,将每个点聚类到
2016-11-25 15:35:15
7475
原创 Spark:Spark 编程模型及快速入门
http://blog.csdn.net/pipisorry/article/details/52366356Spark编程模型SparkContext类和SparkConf类我们可通过如下方式调用 SparkContext 的简单构造函数,以默认的参数值来创建相应的对象。val sc = new SparkContext("local[4]", "Test Spark App")这段代码会创建一
2016-11-25 10:25:08
7241
原创 Scikit-learn:聚类clustering
http://blog.csdn.net/pipisorry/article/details/53185758不同聚类效果比较sklearn不同聚类示例比较A comparison of the clustering algorithms in scikit-learn不同聚类综述Method nameParametersScalabilityUsecaseGeometry (metric use
2016-11-25 09:22:38
7830
1
原创 Spark核心类:SQLContext和DataFrame
http://blog.csdn.net/pipisorry/article/details/53320669pyspark.sql.SQLContext[pyspark.sql.SQLContext]皮皮blogpyspark.sql.DataFramespark df和pandas dfspark df的操作基本和pandas df操作一样的[Pandas小记(6)
2016-11-24 15:28:41
11458
原创 Spark核心类:弹性分布式数据集RDD及其转换和操作pyspark.RDD
http://blog.csdn.net/pipisorry/article/details/53257188弹性分布式数据集RDD(Resilient Distributed Dataset)创建RDD并行集合 (Parallelized collections)RDD可从现有的集合创建。比如在Scala shell中:val collection = List("a", "b", "c", "
2016-11-21 11:02:26
8832
原创 Java:接口interface
http://blog.csdn.net/pipisorry/article/details/53116829接口(interface):命名规则与类一样采用大驼峰命名法,多以大写的I(interface缩写)开头或者able或ible结尾,如interface Runnable ;interface Accessible 。简单地说:接口的作用就是把使用接口的人和实现接口的人分开,实现接...
2016-11-10 16:17:58
1605
原创 python模块:时间处理模块
http://blog.csdn.net/pipisorry/article/details/53067168常用python自带时间处理模块python自带的时间处理模块参考[操作系统服务:time时间模块+datetime模块 ]有一些情况下,datetime却并没有那么好用。比如:1.创建日期时间范围2.创建未固定的日期时间3.检验两个日期时间的差值是否
2016-11-07 16:30:32
6976
原创 python命令行参数解析模块argparse和docopt
http://blog.csdn.net/pipisorry/article/details/53046471直接的命令行参数读取$ python test.py arg1 arg2 arg3Python 中也可以所用sys的sys.argv来获取命令行参数: sys.argv 是命令行参数列表。 len(sys.argv) 是命令行参数个数。 注:sys....
2016-11-05 20:08:55
13332
原创 Scikit-learn:分类classification
http://blog.csdn.net/pipisorry/article/details/53034340支持向量机SVM分类svm分类有多种不同的算法。svcImplementation of Support Vector Machine classifier using libsvm: the kernel can be non-linear but its SMO algorithm d
2016-11-04 14:38:13
3181
原创 Scikit-learn:模型评估Model evaluation 之绘图
http://blog.csdn.net/pipisorry/article/details/53001866绘制ROC曲线def plotRUC(yt, ys, title=None): ''' 绘制ROC-AUC曲线 :param yt: y真值 :param ys: y预测值 ''' from sklearn import metrics
2016-11-02 10:31:28
3052
原创 Spark:聚类算法之LDA主题模型算法
http://blog.csdn.net/pipisorry/article/details/52912179Spark上实现LDA原理LDA主题模型算法[主题模型TopicModel:隐含狄利克雷分布LDA ]Spark实现LDA的GraphX基础在Spark 1.3中,MLlib现在支持最成功的主题模型之一,隐含狄利克雷分布(LDA)。LDA也是基于Gra
2016-10-25 17:04:28
16607
1
原创 Spark:相关错误总结
http://blog.csdn.net/pipisorry/article/details/52916307spark FileNotFoundError: [Errno 2] No such file or directory: '~/ENV/spark/./bin/spark-submit'居然是因为这个引发的错误:SPARK_HOME = ~/ENV/spark应该改成SPARK_HOME
2016-10-24 22:29:21
36423
原创 Scala:函数式编程之下划线underscore
http://blog.csdn.net/pipisorry/article/details/52913548Scala 中下划线的用法 1、存在性类型:Existential typesdef foo(l: List[Option[_]]) = ...2、高阶类型参数:Higher kinded type parameterscase class A[K[_],T](a: K[T])3、临时变量
2016-10-24 17:28:42
1531
原创 机器学习模型选择:调参参数选择
http://blog.csdn.net/pipisorry/article/details/52902797调参经验好的实验环境是成功的一半由于深度学习实验超参众多,代码风格良好的实验环境,可以让你的人工或者自动调参更加省力,有以下几点可能需要注意:将各个参数的设置部分集中在一起。如果参数的设置分布在代码的各个地方,那么修改的过程想必会非常痛苦。可以输出模型的损失函数值以及训练集和验证集上的准确
2016-10-23 16:49:22
16501
原创 Scala:输入输出
http://blog.csdn.net/pipisorry/article/details/52902694Scala基本输入输出从屏幕上读取用户输入有时候我们需要接收用户在屏幕输入的指令来处理程序。实例如下:object Test { def main(args: Array[String]) { print("请输入 : " ) val line = Conso
2016-10-23 16:37:51
9622
原创 Scala:提取器(Extractor)
http://blog.csdn.net/pipisorry/article/details/52902671提取器是从传递给它的对象中提取出构造该对象的参数。Scala 标准库包含了一些预定义的提取器,我们会大致的了解一下它们。Scala 提取器是一个带有unapply方法的对象。unapply方法算是apply方法的反向操作:unapply接受一个对象,然后从对象中提取值,提取的值通常是用来构
2016-10-23 16:34:07
1385
原创 Scala:类,对象和特征(接口)
http://blog.csdn.net/pipisorry/article/details/52902609Scala类和对象类是对象的抽象,而对象是类的具体实例。类是抽象的,不占用内存,而对象是具体的,占用存储空间。类是用于创建对象的蓝图,它是一个定义包括在特定类型的对象中的方法和变量的软件模板。类的创建和实例化class Point(xc: Int, yc: Int) { var x:
2016-10-23 16:32:03
4157
原创 Scala:集合类型Collection和迭代器
http://blog.csdn.net/pipisorry/article/details/52902549Scala CollectionScala 集合分为可变的和不可变的集合。可变集合可以在适当的地方被更新或扩展。这意味着你可以修改,添加,移除一个集合的元素。而不可变集合类,相比之下,永远不会改变。不过,你仍然可以模拟添加,移除或更新操作。但是这些操作将在每一种情况下都返回一个新的集合,同
2016-10-23 16:26:22
2700
原创 Scala:数组
http://blog.csdn.net/pipisorry/article/details/52902432Scala数组声明数组以下是 Scala 数组声明的语法格式:var z:Array[String] = new Array[String](3)或var z = new Array[String](3)以上语法中,z 声明一个字符串类型的数组,数组长度为 3 ,可存储 3 个元素。多维
2016-10-23 16:21:20
4168
原创 Scala:字符串
http://blog.csdn.net/pipisorry/article/details/52902348Scala字符串在 Scala 中,字符串的类型实际上是 Java String,它本身没有 String 类。在 Scala 中,String 是一个不可变的对象,所以该对象不可被修改。这就意味着你如果修改字符串就会产生一个新的字符串对象。但其他对象,如数组就是可变的对象。创建字符串创建
2016-10-23 16:16:06
4138
原创 Scala:函数和闭包
http://blog.csdn.net/pipisorry/article/details/52902271Scala函数Scala 有函数和方法,二者在语义上的区别很小。Scala 方法是类的一部分,而函数是一个对象可以赋值给一个变量。换句话来说在类中定义的函数即是方法。我们可以在任何地方定义函数,甚至可以在函数内定义函数(内嵌函数)。更重要的一点是 Scala 函数名可以由以下特殊字符:+,
2016-10-23 16:00:12
2657
原创 Scala:访问修饰符、运算符和循环
http://blog.csdn.net/pipisorry/article/details/52902234Scala 访问修饰符Scala 访问修饰符基本和Java的一样,分别有:private,protected,public。如果没有指定访问修饰符符,默认情况下,Scala对象的访问级别都是 public。Scala 中的 private 限定符,比 Java 更严格,在嵌套类情况下,外层
2016-10-23 15:55:41
1546
原创 Scala:数据类型和变量
http://blog.csdn.net/pipisorry/article/details/52902158Scala数据类型Scala 与 Java有着相同的数据类型,下表列出了 Scala 支持的数据类型:数据类型描述Byte8位有符号补码整数。数值区间为 -128 到 127Short16位有符号补码整数。数值区间为 -32768 到 32767Int32位有符号补码整数。数值区间为 -2
2016-10-23 15:51:26
5449
原创 Scala: 简介和安装
http://blog.csdn.net/pipisorry/article/details/52902117Note: lz只是稍微学学,能看懂就行,不深入。适合scala小白。Scala简介Scala 是 Scalable Language 的简写,是一门多范式的编程语言联邦理工学院洛桑(EPFL)的Martin Odersky于2001年基于Funnel的工作开始设计Scala。Funnel
2016-10-23 15:42:07
865
原创 python数据挖掘orange
http://blog.csdn.net/pipisorry/article/details/52845804orange的安装linux下的安装先安装依赖pyqt4[PyQt教程 - pythonQt的安装和配置及版本间差异]检查是否安装成功import Orange运行GUI界面python3 -m Orange.canvas安装出错build/temp.linux-x86_64-3.5/_o
2016-10-18 15:09:10
8739
2
原创 最大熵模型The Maximum Entropy:学习
http://blog.csdn.net/pipisorry/article/details/52791036最大熵模型的学习最大熵模型具体形式的推导+参数w的学习。根据[最大熵模型The Maximum Entropy:模型]最大熵模型的形式如下:最大熵模型学习最大熵模型学习的思路学习过程的具体推导Note: 通过交换极大极小位置,即得其对偶问题...
2016-10-11 20:07:31
5314
原创 最大熵模型The Maximum Entropy:模型
http://blog.csdn.net/pipisorry/article/details/52789149最大熵模型相关的基础知识[概率论:基本概念CDF、PDF ]熵定义为: [信息论:熵与互信息 ][最优化方法:拉格朗日乘数法 ][参数估计:贝叶斯思想和贝叶斯参数估计 ][参数估计:最大似然估计MLE ]皮皮blog最大熵原理和思想 ...
2016-10-11 17:09:52
9437
4
原创 对数线性模型:逻辑斯谛回归和最大熵模型
http://blog.csdn.net/pipisorry/article/details/52788947对数线性模型log linear model对数线性模型有:最大熵模型和逻辑斯谛回归。特征和指示特征对数线性模型的一般形式[概率图模型原理与技术]某小皮对数线性模型的不同形式因子图将因子转换到对数空间,成为对数线性模型。...
2016-10-11 16:17:51
4689
原创 “ 鸡尾酒会问题”(cocktail party problem)
Introduction“ 鸡尾酒会问题”(cocktail party problem)是在计算机语音识别领域的一个问题,当前语音识别技术已经可以以较高精度识别一个人所讲的话,但是当说话的人数为两人或者多人时,语音识别率就会极大的降低,这一难题被称为鸡尾酒会问题。解决方案斯坦福大学的Andrew NG教授的机器学习公开课(http://v.163.com/special/opencourse/m
2016-09-22 20:41:11
3536
1
原创 PGM:不完备数据的参数估计
http://blog.csdn.net/pipisorry/article/details/52626889使用不完备数据的贝叶斯学习:MLE估计(梯度上升和EM算法)、贝叶斯估计。参数估计与处理完备数据的类似,有两种估计方法:最大似然估计MLE和贝叶斯估计。使用不完备数据的最大似然估计MLE梯度上升方法{优化似然函数算法1}计算梯度先考虑相对于一个单一CPD的表值P(x|u)的导数(一个数据的
2016-09-22 20:24:06
2727
原创 PGM:部分观测数据
http://blog.csdn.net/pipisorry/article/details/52599451基础知识数据缺失的三种情形:数据的似然和观测模型Note: MLE中是将联合概率P(x,y)赋值给实例。缺失数据的处理:不仅考虑数据产生机制,还要考虑数据被隐藏的机制随机缺失值:主要是修改投掷结果X(随机变量)吧?蓄意缺失值:主要是修改观测变量O吧?随机变量X、观测变量O和实际观测YNot
2016-09-22 20:19:57
2716
1
原创 PGM:贝叶斯网的参数估计2
http://blog.csdn.net/pipisorry/article/details/52599321没时间看了,下次再看。。。具有共享参数的学习模型全局参数共享局部参数共享具有 共享参数的贝叶斯推断层次先验*皮皮blog专栏17.E 文本分类的词袋模型伯努利朴素贝叶斯模型和多项式朴素贝叶斯模型隐含狄利克雷分布LDA皮皮blog泛化分析*渐近性分析PAC界皮皮blogfrom: http:
2016-09-20 20:00:16
1978
原创 PGM:贝叶斯网的参数估计
http://blog.csdn.net/pipisorry/article/details/52578631本文讨论贝叶斯网的参数估计问题:贝叶斯网的MLE最大似然估计和贝叶斯估计。假定网络结构是固定的,且假定数据集D包含了网络变量的完全观测实例。参数估计的主要方法有两种:一种基于最大的似然的估计;一种是使用贝叶斯方法。贝叶斯网的MLE参数估计最大似然估计MLE[参数估计:最大似然估计MLE
2016-09-20 16:22:21
5788
原创 机器学习:分类、多分类、回归模型的评估
http://blog.csdn.net/pipisorry/article/details/52574156衡量分类器的好坏 对于二类分类器/分类算法,评价指标主要有accuracy, [precision,recall,F-score,pr曲线],ROC-AUC曲线,gini系数。 对于多类分类器/分类算法,评价指标主要有accuracy, [宏平均和微...
2016-09-18 15:04:55
71109
1
原创 PGM:图模型学习概述
http://blog.csdn.net/pipisorry/article/details/52571640动机前面我们讨论的问题出发点是给定一个图模型。如在独立性和推理讨论中,假定模型——结构及参数——是输入的一部分。查询一个模型的方法手工搭建网络利用一组从希望建模的那个分布中生成的样本来学习相对于总体的分布模型模型学习皮皮blog这里首先描述学习模型时的目标集合和由这些目标所导致的不同评价指
2016-09-18 11:31:52
3109
原创 PGM:基于模板的表示
http://blog.csdn.net/pipisorry/article/details/52537660引言概率图模型(无论贝叶斯网或马尔可夫网)在一个固定的随机变量集X上具体指定了一个联合概率分布。然后这个固定的分布可以在很多不同的情况下使用。基于变量的模型更加复杂的空间皮皮blog时序模型基本假设动态贝叶斯状态-观测模型 隐马尔可夫模型 线性动态系统皮皮blog模板变量与模板因子皮皮bl
2016-09-18 09:29:01
2312
pandas安装文件
2016-01-01
matplotlib安装文件
2016-01-01
GB2UTF8.exe
2015-08-07
A First Course in Probability 第8版 Sheldon Ross
2014-10-31
Anand.Rajaraman-Mining of Massive Datasets
2016-06-01
Parameter estimation for text analysis
2016-05-23
pdfstudio安装文件及破解
2016-03-24
matplotlib安装包
2016-01-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人