slx_share的博客

记录&分享&交流

欢迎报名华为网络精英挑战赛!

华为网络精英挑战赛是华为公司面向全国高校学生举办的大型技术竞赛,致力于让参赛学生感受网络技术改变世界的魅力,享受架构设计和数据分析的乐趣,锻炼学生与人沟通和团队协作能力。 大赛设置的奖项,除了奖金100000元、华为手机,还有面试绿卡、Special offer、实习直通车,更有与总裁面对面的机会...

2019-03-25 20:31:12

阅读数 191

评论数 1

自编码器、变分自编码器(VAE)简介以及Python实现

本篇博客简单介绍了自编码器(AutoEncoder, AE)以及近几年比较火的变分自编码器(Variational AutoEncoder, VAE),并用Python实现。 自编码器(AE) 自编码器是一种无监督学习模型,可用于数据降维,数据可视化,深度模型逐层预训练等。原始AE结构非常简单,如...

2019-06-25 14:50:00

阅读数 33

评论数 0

受限波尔兹曼机(RBM)简介以及Python实现

预备知识 概率图模型 独立性 因子分解 贝叶斯网络 马尔科夫网络 变量消除 采样 MCMC采样 Gibbs采样 玻尔兹曼机 对比散度算法 代码 参考资料 《深入浅出深度学习-原理剖析与Python实践》黄安埠 ...

2019-06-20 09:21:36

阅读数 107

评论数 0

Pyspark使用笔记

本博客记录了学习Pyspark的笔记。之前一直都是从数据库中导出数据到本地,再进行建模分析,并未使用Spark。由于相对比较熟悉Python,所以便用Pyspark接入Spark进行建模分析。 Pyspark结构 整个程序由11个公共类加4个模块组成。 ...

2019-05-24 10:43:35

阅读数 112

评论数 0

Keras使用笔记

数据预处理 keras提供针对文本(text)、序列(sequence)以及图像(image)三中类型数据的预处理方法。 from keras.preprocessing import text, sequence, image 文本数据处理步骤: 文本拆分 建立索引(编码),转换为...

2019-05-22 15:29:16

阅读数 41

评论数 0

深度学习中卷积操作简单介绍

卷积定义 卷积的数学定义是: 连续形式h(t)=∫−∞+∞f(τ)g(t−τ)dτh(t)=\int_{-\infty}^{+\infty}{f(\tau)g(t-\tau)d\tau}h(t)=∫−∞+∞​f(τ)g(t−τ)dτ 离散形式h(t)=∑τ=−∞+∞f(τ)g(t−τ)dτh...

2019-05-21 16:29:57

阅读数 71

评论数 0

Win10系统搭建Spark环境

在Win10系统下搭建Spark环境,有助于初学者学习开发及调试Spark应用。 软件包准备 不同版本Spark与PySpark存在不兼容的情况,以下版本经本人测试是可行的。 spark-2.3.3-bin-hadoop2.7 hadoop-2.7.7 winutils java1...

2019-04-18 15:10:02

阅读数 51

评论数 0

使用Pyinstaller打包Python应用程序

当我们写了一个Python应用程序,想发给朋友使用,然而朋友的电脑却没有Python运行环境,这是我们可以将代码以及运行环境打包给朋友,使其能跨平台使用,这个过程叫做freezing。这里我们运用fbs以及pyinstaller来创建可以脱机使用的独立可执行应用程序。 直接使用Pyinstall...

2019-03-30 09:17:09

阅读数 44

评论数 0

数据预处理中常用检验方法汇总以及Python示例

统计检验方法 假设检验步骤: 给出原假设H0H_0H0​,通常为积极肯定的一面,例如原数据集及符合某类分布F(X)F(X)F(X)。 挑选统计量(该统计量服从分布F(X)F(X)F(X)),根据样本计算统计量的值。 根据预先设定的显著性程度或者置信度,计算临界值,若统计值超出临界值则否...

2019-02-22 16:07:44

阅读数 140

评论数 0

异常检测—IsolationForest算法简介以及Python实现

IsolationForest是一种适合高维数据集的异常值检测算法。 核心思想 通过随机切分数据集,异常点应该是容易被隔离的。 算法简介 随机选择一个特征,再在该特征下最大与最小值间随机选择一个值作为切分点,递归切分数据集,直到每个样本点被隔开,从而构建一颗类似CART分类树的随机树。重复构建多...

2019-02-22 15:18:57

阅读数 132

评论数 0

异常检测—LOF算法简介以及Python实现

参考资料 https://dl.acm.org/ft_gateway.cfm?id=335388&ftid=2057&dwn=1&CFID=518767...

2019-02-21 20:26:48

阅读数 600

评论数 0

Python数据可视化—seaborn各类图形的绘制

直方图

2019-02-13 10:51:31

阅读数 391

评论数 0

机器学习基础理论笔记

二分类模型 TP(ture positive):正确预测为正类的样本数 FP(false positive):错误预测为正类的样本数 TN(true negtive):正确预测为负类的样本数 FN(false negtive):错误预测为负类的样本数 准确率(accurac...

2019-02-03 16:29:51

阅读数 66

评论数 0

Python数据可视化—matplotlib以及seaborn基础

matplotlib的默认配置存储在rcParam字典中,在动态环境中可修改字典值改变默认配置,也可以通过修改配置文件matplotlibrc,永久更改默认配置,如下: import matplotlib.pyplot as plt plt.rcParams['font.sans-serif'...

2019-02-03 16:26:00

阅读数 122

评论数 0

《信息简史》读后感

学习深度学习的过程中,隐隐觉得神经网络是否能取得很好的预测效果,关键在于能否合理控制其中的信息流。为此,我觉得需要构建起对 信息(information) 的一个清晰认识,詹姆斯⋅\cdot⋅格雷克著作《信息简史》很好的满足了我的需求。特地花了一个星期的时间把这本书看完,感触颇深,写下这篇读后感,...

2019-01-02 16:35:59

阅读数 419

评论数 0

ARIMA模型简介以及Python示例

设观测时间序列{Z1,Z2,Z3,...,Zn}\{Z_1, Z_2, Z_3, ..., Z_n\}{Z1​,Z2​,Z3​,...,Zn​} 平稳过程 序列满足三个条件: 均值恒定。E(Zt)=μE(Z_t)=\muE(Zt​)=μ 方差恒定。Var(Zt)=σ2Var(Z_t)=...

2018-12-21 10:56:02

阅读数 1284

评论数 0

机器学习中的高斯过程简介

前面的博客有说到高斯混合模型,本质是用n(簇的个数)个高斯函数的线性组合拟合数据,然后用训练数据集学习各个高斯函数的参数以及线性组合系数,最后反过来更具学习到的模型P(y∣X)P(y|X)P(y∣X)对原数据集进行聚类。 高斯过程(Gaussian Process, GP)同样采用高斯函数对训练...

2018-11-05 09:56:07

阅读数 1186

评论数 0

机器学习中损失函数的总结

统计机器学习的策略通常是最小化代价函数(目标函数),因此代价函数的选取对学习效果影响很大。损失函数与代价函数是一回事,但有的书籍定义损失函数指单个样本的损失(lll),而代价函数指损失函数之和或加上正则化项(LLL)。本文用lll表示单个样本的损失,LLL表示所有样本的平均损失,ypy^pyp表示...

2018-10-25 14:13:41

阅读数 96

评论数 0

机器学习中集成学习方法的总结

Bagging Boosting Stacking Blending

2018-10-22 11:27:36

阅读数 108

评论数 0

XGBoost算法简介及Python实现

GB(梯度提升)算法就是用损失函数的梯度近似新一轮的残差。GBDT即采用决策树(通常为CART回归树)作为基本分类器的提升算法。GBDT算法是一种加法模型,即逐步添加树以使得目标函数(或称代价函数,即损失函数之和)值最大程度减小。此时的目标函数没有正则化项,仅仅是损失函数(通常是平方损失函数)值之...

2018-10-19 10:04:33

阅读数 839

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭