自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(6)
  • 资源 (5)
  • 收藏
  • 关注

原创 机器学习面试问题集(2018-3-13更新)

http://blog.csdn.net/u011239443/article/details/763602941 基础概念1.1 熵、联合熵、条件熵、交叉熵与相对熵的意义?1.2 归一化方法?1、线性函数归一化(Min-Max scaling) 线性函数将原始数据线性化的方法转换到[0 1]的范围,归一化公式如下: 2、0均值标准化(Z-score sta...

2017-07-30 11:43:27 22617 1

原创 深入理解Spark ML:多项式朴素贝叶斯原理与源码分析

http://blog.csdn.net/u011239443/article/details/76176743朴素贝叶斯的基本原理与简单的python与scala的实现可以参阅:http://blog.csdn.net/u011239443/article/details/68061124如果一个给定的类和特征值在训练集中没有一起出现过,那么基于频率的估计下该概率将为0。这将是一个问题。因为与其他概率相乘时将会把其他概率的信息统统去除。所以常常要求要对每个小类样本的概率估计进行修正,以保证不会出现有为0的

2017-07-27 12:27:54 4964 1

原创 《neural network and deep learning》题解——ch03 过度拟合&规范化&权重初始化

问题一 正如上面讨论的那样,一种扩展 MNIST 训练数据的方式是用一些小的旋转。如果我们允许过大的旋转,则会出现什么状况呢?如果我们允许过大的旋转,会使得模型不能很好的学习到数字的特征,甚至学习到错误的特征。

2017-07-16 16:41:10 1199

原创 《neural network and deep learning》题解——ch03 交叉熵代价函数

这在分类问题一般是可行的,但是对其他的问题(如回归问题)y 可以取 0 和 1 之间的中间值的。我们已经深入讨论了使用二次代价函数的网络中在输出神经元饱和时候学习缓慢的问题,另一个可能会影响学习的因素就是在方程 (61) 中的 x j 项。但是如果我们使用不同的 c得到不同的函数,其本质上和原来的柔性最大值函数是很相似的。正如通常的柔性最大值函数。是输入中的最大值,则$ a^L_j$ 的极限值为1,否则$ a^L_j$ 的极限值为0。用上一章的定义符号,证明对二次代价函数,关于输出层的权重的偏导数为。

2017-07-13 19:49:11 2630 2

原创 《neural network and deep learning》题解——ch02 Network源码分析

完整代码:https://github.com/xiaoyesoso/neural-networks-and-deep-learning/blob/master/src/network.py初始化 # sizes 是每层节点数的数组 def __init__(self, sizes): self.num_layers = len(sizes) self.

2017-07-12 12:24:13 1630

原创 《neural network and deep learning》题解——ch02 反向传播

另一种反向传播方程的表示方式: 我已经给出了使用 Hadamard 乘积的反向传播的公式(尤其是 (BP1) 和 (BP2))。$\large \color{blue}{则: (BP1):δ ^L = ∇ _a C ⊙ σ ′ (z ^L ) = \begin{pmatrix} c1σ1\ c2σ2\…线性神经元上的反向传播假设我们将非线性神经元的 σ 函数替换为 σ(z) = z。σ ′ (z_j^L )$,其他的元素均是 0。证明方程 (BP3) 和 (BP4)。结合(1)和(2)证明。

2017-07-09 13:58:41 2178 2

SMP2020微博情绪分类技术评测数据集

SMP2020微博情绪分类技术评测数据集 本次技术评测使用的标注数据集由哈尔滨工业大学社会计算与信息检索研究中心提供,原始数据源于新浪微博,由微热点大数据研究院提供,数据集分为两部分。     第一部分为通用微博数据集,该数据集内的微博内容是随机获取到微博内容,不针对特定的话题,覆盖的范围较广。     第二部分为疫情微博数据集,该数据集内的微博内容是在疫情期间使用相关关键字筛选获得的疫情微博,其内容与新冠疫情相关。     因此,本次评测训练集包含上述两类数据:通用微博训练数据和疫情微博训练数据,相对应的,测试集也分为通用微博测试集和疫情微博测试集。参赛成员可以同时使用两种训练数据集来训练模型。     每条微博被标注为以下六个类别之一:neutral(无情绪)、happy(积极)、angry(愤怒)、sad(悲伤)、fear(恐惧)、surprise(惊奇)。     通用微博训练数据集包括27,768条微博,验证集包含2,000条微博,测试数据集包含5,000条微博。     疫情微博训练数据集包括8,606条微博,验证集包含2,000条微博,测试数据集包含3,000

2022-12-29

jblas-1.2.4-SNAPSHOT

里MLlib库需要依赖[jblas线性代数库](http://jblas.org/),如果大家编译jblas的jar包有问题,可以获取。把jar包加到lib文件夹后,记得在spark-env.sh添加配置

2016-06-26

Spark机器学习文本处理数据集

为了说明概念,我们将使用一个非常有名的数据集,叫作20 Newsgroups;这个数据集一般用来做文本分类。这是一个由20个不同主题的新闻组消息组成的集合,有很多种不同的数据格式。对于我们的任务来说,可以使用按日期组织的数据集。

2016-06-20

Spark机器学习推荐模型数据集

我们将使用推荐引擎中使用的电影打分数据集,这个数据集主要分为三个部 分:第一个是电影打分的数据集(在u.data文件中), 第二个是用户数据(u.user),第三个是电影数据(u.item)。除此之外,我们从题材文件中获取了每个电影的题材(u.genre)。

2016-06-18

Spark机器学习回归模型数据集

为了阐述本章的一些概念,我们选择了bike sharing数据集做实验。这个数据集记录了bike sharing系统每小时自行车的出租次数。另外还包括日期、时间、天气、季节和节假日等相关信息。

2016-06-15

Spark机器学习分类模型的数据集

考虑到推荐模型中的 MovieLens 数据集和分类问题无关,本章将使用另外一个数据集。这个 数据集源自 Kaggle 比赛,由 StumbleUpon 提供。比赛的问题涉及网页中推荐的页面是短暂(短暂 存在,很快就不流行了)还是长久(长时间流行)。

2016-06-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除