自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(2)
  • 资源 (5)
  • 收藏
  • 关注

原创 《deep learning》学习笔记(7)——深度学习中的正则化

机器学习中的一个核心问题是设计不仅在训练集上误差小,而且在新样本上泛化能力好的算法。许多机器学习算法都需要采取相应的策略来减少测试误差,这些策略被统称为正则化。而神经网络由于其强大的表示能力经常遭遇过拟合,所以需要使用许多不同形式的正则化策略。正则化通过对学习算法的修改,旨在减少泛化误差而不是训练误差。目前有很多正则化策略,有些是向机器学习模型中添加限制参数值的额外约束,有些是向目标函数添加额外项来

2017-10-02 18:49:10 5267 2

原创 《deep learning》学习笔记(6)——深度前馈网络

通过学习一个表示来解决 XOR 问题。图上的粗体数字标明了学得的函数必须在每个点输出的值。(左) 直接应用于原始输入的线性模型不能实现 XOR 函数。当 x 1 = 0 时,模型的输出必须随着 x 2 的增大而增大。当 x 1 = 1 时,模型的输出必须随着 x 2 的增大而减小。线性模型必须对x 2 使用固定的系数 w 2 。因此,线性模型不能使用 x 1 的值来改变 x 2 的系数,从而不能解决这个问题。(右) 在由神经网络提取的特征表示的变换空间中,线性模型现在可以解决这个问题了。在我们的示例解决方案

2017-10-01 17:29:41 6018 1

SMP2020微博情绪分类技术评测数据集

SMP2020微博情绪分类技术评测数据集 本次技术评测使用的标注数据集由哈尔滨工业大学社会计算与信息检索研究中心提供,原始数据源于新浪微博,由微热点大数据研究院提供,数据集分为两部分。     第一部分为通用微博数据集,该数据集内的微博内容是随机获取到微博内容,不针对特定的话题,覆盖的范围较广。     第二部分为疫情微博数据集,该数据集内的微博内容是在疫情期间使用相关关键字筛选获得的疫情微博,其内容与新冠疫情相关。     因此,本次评测训练集包含上述两类数据:通用微博训练数据和疫情微博训练数据,相对应的,测试集也分为通用微博测试集和疫情微博测试集。参赛成员可以同时使用两种训练数据集来训练模型。     每条微博被标注为以下六个类别之一:neutral(无情绪)、happy(积极)、angry(愤怒)、sad(悲伤)、fear(恐惧)、surprise(惊奇)。     通用微博训练数据集包括27,768条微博,验证集包含2,000条微博,测试数据集包含5,000条微博。     疫情微博训练数据集包括8,606条微博,验证集包含2,000条微博,测试数据集包含3,000

2022-12-29

jblas-1.2.4-SNAPSHOT

里MLlib库需要依赖[jblas线性代数库](http://jblas.org/),如果大家编译jblas的jar包有问题,可以获取。把jar包加到lib文件夹后,记得在spark-env.sh添加配置

2016-06-26

Spark机器学习文本处理数据集

为了说明概念,我们将使用一个非常有名的数据集,叫作20 Newsgroups;这个数据集一般用来做文本分类。这是一个由20个不同主题的新闻组消息组成的集合,有很多种不同的数据格式。对于我们的任务来说,可以使用按日期组织的数据集。

2016-06-20

Spark机器学习推荐模型数据集

我们将使用推荐引擎中使用的电影打分数据集,这个数据集主要分为三个部 分:第一个是电影打分的数据集(在u.data文件中), 第二个是用户数据(u.user),第三个是电影数据(u.item)。除此之外,我们从题材文件中获取了每个电影的题材(u.genre)。

2016-06-18

Spark机器学习回归模型数据集

为了阐述本章的一些概念,我们选择了bike sharing数据集做实验。这个数据集记录了bike sharing系统每小时自行车的出租次数。另外还包括日期、时间、天气、季节和节假日等相关信息。

2016-06-15

Spark机器学习分类模型的数据集

考虑到推荐模型中的 MovieLens 数据集和分类问题无关,本章将使用另外一个数据集。这个 数据集源自 Kaggle 比赛,由 StumbleUpon 提供。比赛的问题涉及网页中推荐的页面是短暂(短暂 存在,很快就不流行了)还是长久(长时间流行)。

2016-06-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除