![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
littletomatodonkey
work and life balance
展开
-
常见的聚类算法
常见的聚类算法原创 2017-11-25 00:55:54 · 714 阅读 · 0 评论 -
卷积神经网络的基本概念与mnist测试
CNN简介视觉皮质有一块很小的局部感受野(local receptive feld)。不同的感受野之间可能会发生重叠,所有的感受野组成了可视区域对视觉皮质的研究最终演化为CNN,CNN除了之前的全连接层以及激活函数等概念,还引入了卷积层和池化层等概念setup code# 不显示python使用过程中的警告import warningswarnings.fil原创 2018-01-28 12:11:47 · 2200 阅读 · 0 评论 -
sklearn集成方法
集成方法 集成方法是训练很多基学习器,然后用这些基学习器去对进行分类或者回归,最后取所有结果中比例最大的作为模型的结果投票分类器(Voting Classifiers)定义:对于一个训练集,有很多分类器,比如说Logistic、KNN、SVM等。对于一个样本,我们给出所有分类器的分类结果,然后利用这个结果对样本的分类进行预测 hard voting classifier原创 2018-01-19 17:53:18 · 8240 阅读 · 3 评论 -
sklearn 降维方法概述
降维方法现实中的许多数据都是稀疏的(sparse),高维数据处理的时间和空间复杂度都十分大,因此需要对数据进行降维对数据进行降维,会在一定程度上降低数据的精度,同时也会增加机器学习模型处理流程的复杂度。主要的降维方法映射(Projection)现实中的许多数据的特征都是相关的,或者特征为常数,可以利用映射的方法将高维数据映射到低维流行学习(Manifold原创 2018-01-20 00:54:40 · 4459 阅读 · 0 评论 -
jupyter tensorflow配置
jupyter tensorflow配置Anaconda安装按照官网安装即可tensorflow按照官网安装即可使用时需要source activate tensorflowwindows防火墙配置在配置jupyter,使其能够远程访问之前,首先需要配置本地的防火墙,因为用服务器ping本地windows机器出现了无法连接的情况解决办法的链接:ht原创 2018-01-20 23:13:41 · 3627 阅读 · 0 评论 -
tensorflow RNN
RNN介绍setup code# 不显示python使用过程中的警告import warningswarnings.filterwarnings("ignore")%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as npimport tensorflow as tfimport osde原创 2018-01-29 21:15:03 · 1072 阅读 · 0 评论 -
matlab动态神经网络进行时间序列预测分析
matlab动态神经网络进行时间序列预测分析时间序列预测问题分类有y,无x,即y(t)=f(y(t−1),y(t−2),...)y(t)=f(y(t−1),y(t−2),...)y(t)=f(y(t-1),y(t-2),...)(NAR)有x,有y,即y(t)=f(x(t−1),x(t−2),...,y(t−1),y(t−2),...)y(t)=f(x(t−1),x(t−2),.....原创 2018-02-25 10:45:02 · 54471 阅读 · 28 评论 -
ubuntu16.04 hadoop与spark安装
关于平台选择的问题目前分布式计算框架主要是在linux系统下开发,因此选择ubuntu或者centos都没有问题。spark发展到现在,很多方面都已经十分完善,其速度与性能等也比hadoop好不止一个数量级,因此,主要使用spark进行分布式计算框架的学习。但是hadoop中的HDFS文件系统应用广泛,spark默认也采用hadoop的HDFS文件系统,因此安装时,首先安装配置hadoop...原创 2018-03-18 15:57:36 · 1470 阅读 · 0 评论 -
RDD的键值对操作(pair RDD)
RDD的键值对操作创建可以从RDD中直接通过map函数进行创建lines = sc.textFile("file:///usr/local/spark/README.md")pairs = lines.map( lambda x : (x.split(" ")[0], x) ) # 将第一行的第一个单词作为key,该行字符串作为value,构建pairRDDprint( pa...原创 2018-03-22 17:57:29 · 3689 阅读 · 0 评论 -
pyspark MLlib基本使用
MLib基本概念MLib其实就是将数据以RDD的形式进行表示,在分布式数据集上调用各种算法。使用方法MLlib中包含能够在集群上运行良好的并行算法,如kmeans、分布式RF、交替最小二乘等,这能够让MLib中的每个算法都能够适用于大规模数据集也可以将同一算法的不同参数列表通过parallelize(),在不同节点上运行,最终找到性能最好的一组参数,这可以节省小规模...原创 2018-03-26 23:09:19 · 7875 阅读 · 2 评论 -
python-EM求解混合高斯分布
python-EM求解混合高斯分布参考链接https://blog.csdn.net/sinat_33761963/article/details/53520898https://zhuanlan.zhihu.com/p/26328340代码import numpy as np def Normal(x,mu,sigma):#一元正态分布概率密度函数 re...原创 2018-06-27 21:19:21 · 1874 阅读 · 0 评论 -
机器学习&深度学习训练中防止过拟合的方法
防止过拟合的一些方法L1 loss在loss function中添加模型权重参数的绝对值和,用超参数αα\alpha调节L1 loss在整体loss function中占的比例。 Lnew=Lold+α∑|w|Lnew=Lold+α∑|w|{L_{new}} = {L_{old}} + \alpha \sum {\left| w \right|}L2 loss在loss...原创 2018-08-20 23:32:59 · 815 阅读 · 0 评论 -
tensorflow 增强学习
增强学习(Reinforcement Learning)增强学习的应用领域很广,它假定有一个智能体(agent)在系统中,智能体做出特定的决策,对于表现不好的行为给予惩罚,奖励表现好的行为Setup code# 不显示python使用过程中的警告import warningswarnings.filterwarnings("ignore")%matplotlib i原创 2018-02-03 16:14:08 · 3413 阅读 · 0 评论 -
sklearn 数据预处理
sklearnpreporcessing预处理,针对每一列数据生成对应的多项式特征,可以用于之后的多项式拟合,即先生成对应的多项式,然后再利用最小二乘法拟合一个矩阵为[a,b]的形式,则生成2阶多项式特征之后为[1, a, b, ab, a^2, b^2]interaction_only为True时,只找出有交互作用的多项式矩阵,[1,a,b,ab]include_bias=F原创 2018-01-08 22:52:37 · 3665 阅读 · 2 评论 -
sklearn分类
sklearn分类原创 2018-01-13 22:02:21 · 5418 阅读 · 0 评论 -
tensorflow入门
tensorflow 基本使用简介TF底层是用C++封装的,因此十分高效TF定义一个图,然后利用优化的C++代码对图进行计算TF有可视化工具tensorboard,可以对计算图进行可视化TF可以实现自动微分(automatic differentiating)TF默认情况下会使用所有gpu,同时占满所有gpu内存,如果需要对其进行修改,可以参考:https://www.cnb原创 2018-01-22 15:05:23 · 350 阅读 · 0 评论 -
tensorflow 神经网络基本使用
TF使用ANN(artificial neural network)简介受到生物神经网络的启发发展历史 生物神经网络单元逻辑运算单元:and、or、xor等运算感知机(perceptron):hw(x)=step(wT⋅x)h_w(x)=step(w^T \cdot x)多层感知机和反向传播(multi-perceptron and backpropagation)p原创 2018-01-22 20:40:18 · 5088 阅读 · 0 评论 -
一些常用的回归模型
线性回归模型线性回归线性回归在求解时,一般需要给所有样本添加一个常数项,作为回归模型的偏置线性回归模型可以表述为 y^=hθ(x)=θTx\hat y = {h_\theta }(x) = {\theta ^T}x 该方程有封闭解,利用最小二乘法可以有 θ^=(xTx)−1x⋅y\hat \theta = {({x^T}x)^{ - 1}}x \cdot y%ma原创 2018-01-16 12:33:33 · 20825 阅读 · 1 评论 -
tensorflow 自编码器
AutoencodersAutoencoder可以对输入数据进行无监督的学习,coding得到的结果的维度往往很低,因此自编码器可以用于数据的降维;自编码器也可以用于特征检测;同时也可以生成许多与训练数据相似的新数据,这可以被称为生成模型(generative model)。setup code# 不显示python使用过程中的警告import warningswarn原创 2018-01-31 19:43:58 · 1862 阅读 · 2 评论 -
sklearn SVM使用
sklearn SVM使用原创 2018-01-17 17:49:12 · 61735 阅读 · 5 评论 -
DNN训练过程中的一些问题以及技巧
DNN训练过程中的一些问题以及技巧首先介绍几个概念 lower layers :浅层的网络层,主要对简单的特征进行梯度,如边缘、角点等deeper layers:深层的网络层,主要用于提取十分复杂的特征。在使用DNN的过程中,我们可能会遇到一些问题 梯度弥散或者梯度爆炸,这会提升DNN的训练难度对于大型的网络来说,其训练速度十分慢如果网络参数过多,很容易发生过拟合的问题原创 2018-01-25 17:26:14 · 6423 阅读 · 0 评论 -
ARIMA模型
ARIMA模型简介ARIMA模型是由AR、I与MA模型组成AR(p):auto regressive,自回归模型,表示当前的数值与过去p个时间节点的值的回归,不依赖别的值,所以称为自回归;其中p" role="presentation">ppp称为自回归的阶数。I(d):integrateed,有的时间序列不是平稳信号,使用对数或者差分的方法可是将数据转化为平稳数据,数据的平稳性可以原创 2018-02-02 09:25:38 · 17595 阅读 · 3 评论 -
sklearn 决策树
sklearn 决策树原创 2018-01-18 15:49:51 · 1420 阅读 · 0 评论 -
统计分布的距离/相似性计算
统计分布的距离/相似性计算KL散度(Kullback-Leible divergence)KL散度可以用于描述两个分布之间的距离,假设p(x)p(x)p(x)与q(x)q(x)q(x)是随机变量X的分布,则它们的KL散度为D(p∣∣q)=∫−∞+∞p(x)logp(x)q(x)dxD(p||q) = \int_{ - \infty }^{ + \infty } {p(x)log\frac...原创 2018-11-25 00:37:05 · 12753 阅读 · 0 评论