机器学习
Dillon2015
从事视频编码的相关研究。
邮箱:13141211944@163.com
展开
-
PCA主成分分析
PCA(主成分分析)是用于数据降维的一种方法,可以用来将高维数据映射到低维空间,去掉那些无关属性,便于对数据进行分析。在python的sklearn库中提供了相应方法。sklearn.decomposition.PCA(n_components=None,copy=True,whiten=False)参数说明:(1)n_componentsPCA算法中要保留的主成分个数即保原创 2016-12-08 22:23:14 · 1816 阅读 · 0 评论 -
win8.1安装Theano和Keras
python scikit-learn是个强大的机器学习库,但是没有通过构建人工神经网络的方法。但是python有一个强大的keras库可以用来构建神经网络,keras是基于Theno的,Theno是个深度学习的库。在安装Keras之前要先安装好numpy、scipy、Theano。在安装Theano之前先要安装一个C++编译器,这个编译器在linux下自带。在windows下需要自己安装。原创 2016-12-09 19:49:42 · 1187 阅读 · 0 评论 -
sklearn模型持久化
It is possible to save a model in the scikit by using Python’s built-in persistence model, namely pickle:>>> from sklearn import svm>>> from sklearn import datasets>>> clf = svm.SVC()>>> iris = d翻译 2017-01-25 22:22:45 · 1309 阅读 · 0 评论 -
centos7 minimal安装tensorflow
在centos7 minimal上通过官网给出的方法pip install tensorflow安装tensorflow。安装过程成功,没有报错。但是在使用时,导入tensorflow包时报错上网查找MARKER_EXPR = originalTextFor(MARKER_EXPR())("marker"错误原因有两种解决办法:参考链接:http://sta原创 2017-02-25 12:32:20 · 1129 阅读 · 1 评论 -
AttributeError: 'SupervisedDataSet' object has no attribute '_convertToOneOfMany'
使用pybrain构造神经网络,在执行官网代码时出错:means = [(-1,0),(2,4),(3,1)]cov = [diag([1,1]), diag([0.5,1.2]), diag([1.5,0.7])]alldata = ClassificationDataSet(2, 1, nb_classes=3)for n in xrange(400): for klass原创 2017-03-11 22:40:43 · 2011 阅读 · 0 评论 -
spark ml pipelines
spark ML Pipelines在spark2.0里mllib分为两个包,spark.mllib里是基于RDD的API,spark.ml里是基于 DataFrame的API。官方不会在基于RDD的mllib里添加新特性。所以建议使用ml包。在spark2.2时基于RDD的API会被废弃,到spark3.0会被彻底移除。Pipelines主要概念DataFrame: This ML API us翻译 2017-03-21 17:50:24 · 1234 阅读 · 0 评论 -
信息熵
信息熵理论提出:熵是信息论之父香农提出的量化信息量的概念。基本内容:熵的概念最早起源于物理学,用于度量一个热力学系统的无序程度。在信息论里面,熵是对不确定性的测量。但是在信息世界,熵越高,则能传输越多的信息,熵越低,则意味着传输的信息越少。如果压缩是无损的,即通过解压缩可以百分之百地恢复初始的消息内容,那么压缩后的消息携带的信息和未压缩的原始消息是一样的多。而压缩后的消息可以通过较少的比特传递,因此原创 2017-03-20 17:30:48 · 1062 阅读 · 0 评论 -
RDD转换为DataFrame
RDD转换为DataFrame今天在使用spark处理movielens数据集时,由于要在数据集中添加一列,所以不能直接读取数据集生成DataFrame,需要在生成DataFrame之前预处理一下数据集添加一列。所以我就以RDD的方式读入数据,并作相应处理,处理后需要将RDD转换为DataFrame以方便使用ml的API。 将RDD转换为DataFrame有两种方式:利用java的反射机制。利用原创 2017-03-29 19:03:22 · 7784 阅读 · 0 评论 -
spark Exception in thread "main" java.lang.IllegalArgumentException: java.net.URISyntaxException: Re
在windows上运行spark2.0的ml算法报错:Exception in thread "main" java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative path in absolute URI: file:F:/program/MyPrograms/spark-warehouse错误位置原创 2017-03-20 23:38:50 · 4336 阅读 · 0 评论