自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 精通数据科学笔记 深度学习

这一章主要介绍了ANN,CNN,RNN,LSTM,VAE,GAN利用神经网络(ANN)识别数字MNIST图集:0~9的手写数字图片,包含60000张训练图片和10000张测试图片,存储格式特殊,需要专门的程序解析防止过拟合的惩罚项ANN是很复杂的模型,非常容易发生过拟合,通用的方法是加入惩罚项,常用的惩罚项有三种:防止过拟合之Dropout在训练模型的每一步中随...

2019-09-08 19:38:23 307 1

原创 精通数据科学笔记 神经网络

本章讨论一种全新的建模理念,它不关心模型的假设以及相应的数学推导,也就是说不关心模型的可解释性,其核心内容是模型实现,虽然到目前为止,人们还无法理解,但在某些特定场景里预测效果却非常好。我们把这种模型称为神经网络,深度学习,人工智能等。神经元模型的输入是数据里的自变量接收输入变量的是一个线性模型接下来是一个非线性激活函数,这是神经元模型的核心,常用的激活函数有很多,如sigmo...

2019-09-08 12:46:19 222

原创 精通数据科学笔记 分布式机器学习

在可预见的未来,数据的增长速度仍会大幅超过计算机性能进步的速度。在处理大数据时,需要将很多台计算机联结起来组成一个巨大的分布式计算集群,将收集到的数据分散地存储在这些机器上。如果每台机器上独立地运行梯度下降法,是可以得到一系列“临时”的参数估计值,但根据这些临时的估计值,我们无法得到正确的参数估值。

2019-09-07 19:27:59 262

原创 精通数据科学笔记 非监督学习

聚类K-means:数据间的欧氏距离度量相似性,用EM算法求解,要求数据各向均质,类别里方差相近混合高斯模型:用椭圆分类,K-means是混合高斯的特殊情况谱聚类:可以处理流线型的数据,是对向量化的邻接矩阵求特征向量,然后进行聚类降维PCA:线性PCA和kernelPCA,找最佳降维向量,保留最多的信息SVD(截断奇异值分解):通过矩阵分解进行降维,常用于潜在语义分析和推荐...

2019-09-07 10:07:39 191

原创 精通数据科学笔记 生成式模型

朴素贝叶斯:假设特征是条件独立,可用于文本分类,常作为原子模型与其他模型联结(connectionism)判别式分析:假设特征类别已知的条件下服从正态分布,允许自变量之间有相关关系,只能处理连续型变量,常用来进行数据降维和联结其他模型,如 Gaussian HMM隐马尔可夫模型:可用来处理序列数据,是在简单的生成式模型基础上加入马尔科夫链构成的简单图模型。可用于监督学习和非监督学习。贝...

2019-09-05 23:40:52 463

原创 精通数据科学笔记 监督学习

支持向量机: 进行线性或近似线性数据的分类核函数:将低维数据映射到高维,解决低维数据非线性问题决策树:模仿决策过程,常用作组合模型中特征提取随机森林:相互独立的多个决策树组合,提升模型效果GBTs:以最优方式提升模型预测结果支持向量机在支持向量机模型里,一个数据点与分离直线的距离表示模型对这个点的预测置信度,离得越近,模型越没把握。对于线性可分数据,支持向量机有不错的分...

2019-09-03 15:29:16 133

原创 数据处理笔记 数据问题检测与处理

特征处理定性变量:数学运算无意义定量变量:数学运算有意义定性变量:选择占比最大者做基类,转换成有线性关系的虚拟变量;用针对二元分类的ridit scoring将有序定性变量转换成定量变量定量变量:直接使用定量变量带来“隐含的边际效应恒定假设”问题,将定量变量按区间划分类别,转换成定性变量,再按照定性变量的虚拟变量方法处理,在区间划分过程中用到基于卡方检验的方法,分段后的定性变量与预测...

2019-08-31 21:40:33 993

原创 CHINAMM2019 中国多媒体大会2019 笔记

2019年的中国多媒体大会举办在浪漫的海滨之都——大连。有幸跟着老师来蹭一蹭北国风光。话休絮烦,直入正题。人工智能的发展趋势高文 中国工程院院士 北大教授 博导 深圳鹏城实验室主任人工智能大概是当下学术界和工业界绕不开的热门话题,已经作为国家战略日渐渗入生活生产的方方面面。然而我们今天的人工智能尚处于相当初级的阶段,用高文院士的话说,是狭义智能,还远不是通用智能。很明显,我们今天的...

2019-08-27 23:11:15 1789

原创 精通数据科学笔记3 梯度下降法

对于模型的工程实现,核心问题是如何估计模型的参数,也就是如何求解最优化问题。这一章以tensorflow为基础工具,讨论最优化问题的核心算法——梯度下降法(其中梯度下降法是随机梯度下降法的特例)。这个方法容易得到损失函数的局部最小,解决方法是通过选取多个起始点,计算多个局部最小值的最小值,作为全局最小值。1.梯度下降法梯度下降法是模拟“小球沿斜坡滚动,最终会停在最低点”生成的算法。对于交叉...

2019-08-26 22:12:11 230

原创 数据学习笔记2 逻辑回归

1.二元分类问题失效的线性回归线性回归需要满足3个基本假设(1)因变量和自变量之间是线性关系(2)自变量和干扰项相互独立(3)没被线性模型捕捉到的干扰项服从正态分布对于二元分类问题,因变量的值表示一种选择,只有0/1两个值,但模型预测值却是充满实数集的连续变量值,与设定不符窗口效应假设有自变量集合.他们决定购买衣服对客户i的效用,包括正效用和负效用,将观察到的客户购买行...

2019-08-22 22:11:12 1533

原创 数据学习笔记1 线性回归

问题背景,玩具生产个数与生产成本的关系如下:生产记录 日期 玩具数量 成本 天数 04/01 10 7.7 1 04/02 10 9.87 2 04/03 11 10.87 3 04/04 12 12.18 4 04/05 13 11.43 5 04/06 ...

2019-08-20 12:55:03 564

原创 精通数据科学:从线性回归到深度学习 学习笔记

线性回归逻辑回归梯度下降法支持向量机SVM核函数决策树随机森林朴素贝叶斯隐马尔可夫模型K-means混合高斯谱聚类主成分分析PCA奇异值分解神经网络卷积神经网络递归神经网络长短期记忆对抗神经网络...

2019-08-18 12:53:53 341

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除