自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

翻译 Who is Tweeting on Twitter: Human, Bot, or Cyborg?

1. 研究问题本论文通过对社交软件Twitter进行大规模测量,差异化Twitter用户的自动化特征,并且将用户分为三类 :人、机器人和半机器人,并发现三者在微博行为,微博内容和帐户属性方面的差异。基于该测量的结果,提出了一种分类系统,该系统包括以下四个部分: (1)一个基于熵的组分 (2)一个基于机器学习的组件。 (3)一个帐户属性组件。 (4)一个决策器。 它使用从未知用户提取的特征的

2018-01-08 10:30:48 620

转载 机器学习中的范数规则化之L0、L1与L2范数

出处:http://blog.csdn.net/zouxy09/article/details/24971995 声明:版权所有,转载请联系作者并注明出处,谢谢。 监督机器学习问题无非就是“minimize your error while regularizing your parameters”,也就是在规则化参数的同时最小化误差。最小化误差是为了让我们的模型拟合我们的训练数据,而规则化

2017-12-05 16:02:34 312

原创 Hadoop与Spark算法分析(四)——PageRank算法

PageRank是用于解决网页重要性排序的关键技术之一,其基于网页之间链接关系构建一个有向图结构,实现各个网页级别的划分。一个网页的PageRank值(后面简称PR值),取决于其他网页对该网页的贡献和,以公式形式表示为,其中U表示所有网页指向网页b的网页集合,L(a)表示网页a的出度,d表示用户浏览一个网页的随机概率,用于解决网页关系间的陷阱问题。根据公式递归计算,各网页的PR值将最终趋于稳定。可以

2017-11-21 15:22:01 3946

原创 Hadoop与Spark算法分析(三)——矩阵乘法

矩阵乘法的并行计算最早被用于Google提出的PageRank算法中包含的迭代乘法运算,也可高效执行大矩阵间的相乘运算。1. 实验准备由于Hadoop与Spark对于矩阵乘法的实现过程不同,这里分别使用Linux Shell生成随机的对应于Hadoop与Spark算法的输入矩阵文件,其中输入文件名均以“矩阵名_行值_列值”格式命名,执行shell脚本所需要的参数有矩阵的行值,列值以及矩...

2017-11-13 19:49:58 904

原创 Hadoop与Spark算法分析(二)——排序算法

数据排序是实际任务执行时非常重要的一步,为后续的数据处理打下基础。1. 实验准备本次实验中,每个数据以行的形式保存在输入文件中。其中输入文件通过编写Linux Shell脚本makeNumber.sh随机生成。shell脚本内容如下:#! /bin/bashfor i in `seq 1 $1`do echo $((RANDOM)) >> $2done第1个参数表示输入文件的行数,第2

2017-11-06 10:16:11 523

原创 Hadoop与Spark算法分析(一)——WordCount

WordCount是大数据编程的入门程序,实现对输入文件中每个单词出现次数的统计,可应用于海量文本的词频检索。过程如下图所示: 1. Hadoop实现map过程调用map函数以文件中每行首个字符的偏移量和整行值为输入参数,将值进行单词的拆分,并最终输出(单词,1)的键值对。 reduce过程从各Map端收集得到(单词,列表(1,1,…1))键值对,通过对值列表相加计算单词主键的出现频数

2017-10-27 11:03:54 1369

原创 神经网络与深度学习(三)——反向传播算法

1. 基于矩阵计算网络输出首先给出网络中权重的清晰定义。使用表示从层的个神经元到层的个神经元的链接上的权重。如下图所示,给出了第2个隐藏层的第4个神经元到第3个隐藏层的第2个神经元的链接上的权重。 对网络偏差和激活值也使用类似的表示。显式地,使用表示在层个神经元的偏差,使用表示层个神经元的激活值。如下图所示。 这样一来,层的个神经元的激活值就与层的激活值关联起来了,如下式

2017-10-17 11:23:45 1090

转载 神经网络与机器学习(二)——识别手写数字示例

出处: http://blog.csdn.net/longxinchen_ml/article/details/50281247           http://blog.csdn.net/han_xiaoyang/article/details/50282141 声明:版权所有,转载请联系作者并注明出处,谢谢。

2017-09-14 15:37:08 1173

原创 Hadoop与Spark技术入门

1 Hadoop系统概述1.1 Hadoop简介Hadoop最初起源于搜索引擎子项目Nutch,是Apache基金会的开源大数据计算平台,其核心组件设计包含有分布式文件系统HDFS及分布式计算框架MapReduce。随着Hadoop项目的开源发展,逐渐扩展成为一个包含Zookeeper、Hive等众多子系统的大数据生态系统。1.2 分布式文件系统HDFSHDFS采用Master/Slave的主从式架

2017-09-06 10:53:25 1777

原创 神经网络与深度学习(一)——神经元与梯度下降算法

神经网络是一种受生物学启发的编程范式,让计算机在众多观测数据中进行自我学习的算法技术。而深度学习可以看作是强有力的用于神经网络学习的众多技术的集合。目前,神经网络与深度学习在图像识别、语音识别和自然语言处理领域中都给出了最好的解决方案。本文以两种常用神经元的工作原理入门,讲解梯度下降学习算法,并进一步引出深度学习的概念。1 感知器(Perceptrons)感知器是人工神经元的一种,即便如今更多的使用

2017-08-31 21:11:55 1808

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除