大数据与云计算
南山牧笛
只有站在高处,才会看见更美丽的风景
展开
-
从hadoop框架与MapReduce模式中谈海量数据处理
从hadoop框架与MapReduce模式中谈海量数据处理前言 几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,觉得它们很是神秘,而神秘的东西常能勾起我的兴趣,在看过介绍它们的文章或论文之后,觉得Hadoop是一项富有趣味和挑战性的技术,且它还牵扯到了一个我更加感兴趣的话题:海量数据处理。 由此,最近凡是空转载 2015-07-27 20:55:16 · 471 阅读 · 0 评论 -
开放数据处理服务ODPS
https://docs.aliyun.com/?spm=5176.7189909.0.0.8VJsm6#/pub/odps原创 2015-08-19 23:13:21 · 447 阅读 · 0 评论 -
平台使用
大家好,我们是内部赛冠军混沌队,下面是关于第二赛季平台使用的攻略。希望能够帮助大家快速上手,熟悉环境,尤其是对于以前木有接触过御膳房的同学们。 一、攻略之平台环境:1、登录参赛环境:御膳房,http://yushanfang.com/ (左上角请登录)2、点击“我的资源”下对应的project,进入环境。3、本次比赛中主要使用的有两部分:数据开转载 2015-08-19 23:21:07 · 490 阅读 · 0 评论 -
[资金流入流出预测]一点心得、一份攻略、一段baseline code —— I'm PLUS
PLUS是队伍名字,不是哪个基准帖子的升级版哦。去年发现有娃了之后,就给娃起了个小名叫加号,之后苹果发布了 6+,结果PLUS就烂大街了。------------------------------------------------------------------------------我是方案简介分割线--------------------------------------转载 2015-08-19 23:22:53 · 4279 阅读 · 0 评论 -
天池大数据比赛
天池大数据比赛http://tianchi.aliyun.com/?spm=0.0.0.0.jD9Sg3原创 2015-08-19 22:18:01 · 1677 阅读 · 0 评论 -
手把手入门神经网络系列(1)_从初等数学的角度初探神经网络
http://blog.csdn.net/longxinchen_ml/article/details/50082873转载 2016-01-16 16:26:08 · 471 阅读 · 0 评论 -
掰一掰GitHub上优秀的大数据项目
VMware CEO Pat Gelsinger曾说:数据科学是未来,大数据分析则是打开未来之门的钥匙企业正在迅速用新技术武装自己以便从大数据项目中获益。各行业对大数据分析人才的需求也迫使我们升级自己的技能以便寻找更好的职业发展。跳槽之前最好先搞清楚一个岗位会接触到的项目类型,这样你才能掌握所有需要的技能,工作的效率也会更高。转载 2016-01-20 22:11:53 · 3418 阅读 · 0 评论 -
NVIDIA CuDNN 安装说明
CuDNN是专门针对Deep Learning框架设计的一套GPU计算加速方案,目前支持的DL库包括Caffe,ConvNet, Torch7等。CuDNN可以在官网免费获得,注册帐号后即可下载。官网没有找到安装说明,下载得到的压缩包内也没有Readme. 不过google一下就会找到许多说明。基本原理是把lib文件加入到系统能找到的lib文件夹里, 把头文件加到系统能找到的include文件转载 2015-12-06 17:04:35 · 2243 阅读 · 0 评论 -
使用Storm实现实时大数据分析
http://www.csdn.net/article/2012-12-24/2813117-storm-realtime-big-data-analysis转载 2015-08-25 14:57:05 · 455 阅读 · 0 评论 -
Hadoop学习笔记:MapReduce框架详解
开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关,我开始学习某一套技术总是想着这套技术到底能干什么,只有当我真正理解了这套技术解决了什么问题时候,我后续的学习就能逐步的加快,而学习hdfs时候我就发现,要理解hadoop框架转载 2015-08-25 13:48:21 · 448 阅读 · 0 评论 -
使用Python实现Hadoop MapReduce程序
转自:使用Python实现Hadoop MapReduce程序英文原文:Writing an Hadoop MapReduce Program in Python根据上面两篇文章,下面是我在自己的ubuntu上的运行过程。文字基本采用博文使用Python实现Hadoop MapReduce程序, 打字很浪费时间滴。 在这个实例中,我将会向大家介绍如何使用Pyt转载 2015-08-25 13:36:40 · 874 阅读 · 1 评论 -
写mapreduce程序实现kmeans算法
写mapreduce程序实现kmeans算法,我们的思路可能是这样的1. 用一个全局变量存放上一次迭代后的质心2. map里,计算每个质心与样本之间的距离,得到与样本距离最短的质心,以这个质心作为key,样本作为value,输出3. reduce里,输入的key是质心,value是其他的样本,这时重新计算聚类中心,将聚类中心put到一个全部变量t中。4. 在main转载 2015-07-28 10:43:19 · 2107 阅读 · 0 评论 -
Ubuntu下eclipse开发hadoop应用程序环境配置
大家好,今天给大家介绍一下Ubuntu下eclipse开发hadoop应用程序环境配置,目的很简单,为进行研究与学习,部署一个hadoop运行环境,并搭建一个hadoop开发与测试环境。环境:Vmware 8.0 和Ubuntu11.04第一步:下载eclipse-SDK-4.2.1-linux-gtk.tar.gzhttp://mirrors.ustc.edu.cn/转载 2015-07-28 13:11:00 · 407 阅读 · 0 评论 -
机器学习:搜索引擎过渡至人工智能
K.K在纪录片《Google and the World Brain》中提到,他在谷歌创业初期问Larry Page,现在已经有了一个性能不错的搜索引擎,为什么还要做一个?Larry Page解释说,不是要开发新的搜索引擎,我们要做的是人工智能。搜索引擎是我们的主动意识与互联网世界之间最重要的连接方式,并且在长期数据积累、存储技术、云服务、超级计算和机器学习等方面具有独特优势,或许它们将成为最接近转载 2015-08-23 13:16:19 · 2333 阅读 · 0 评论 -
ubuntu下配置JDK+Hadoop+Eclipse
1,先把锐捷客户端装好。2,最好更新一下软件源,电子科大3,手动安装JDK1.6,安装过程网上都有,注意的问题:a,配置环境变量最好在profile文件中配置,有一次在environment中配置,结果配置的有问题,系统就直接进不去,profile是本用户的环境变量,environment是root权限的环境变量b,安装好后,运行java -version,转载 2015-07-28 12:41:30 · 372 阅读 · 0 评论 -
阿里天池大数据竞赛
《阿里移动推荐算法》2014年是阿里巴巴集团移动电商业务快速发展的一年,例如2014双11大促中移动端成交占比达到42.6%。相比PC时代,移动端网络的访问是随时随地的,具有更丰富的场景数据,比如用户的位置信息、用户访问的时间规律等。本次大赛以阿里巴巴移动电商平台的真实用户-商品行为数据为基础,同时提供移动时代特有的位置信息,而参赛队伍则需要通过大数据和算法构面向建移动电子商务的商品推转载 2015-08-23 20:32:47 · 4740 阅读 · 0 评论 -
hadoop下实现kmeans一
前一段时间,从配置hadoop到运行kmeans的mapreduce程序,着实让我纠结了几天,昨天终于把前面遇到的配置问题和程序运行问题搞定。Kmeans算法看起来很简单,但对于第一次接触mapreduce程序来说,还是有些挑战,还好基本都搞明白了。Kmeans算法是从网上下的在此分析一下过程。Kmeans.java[java] view plaincopy转载 2015-07-28 10:17:00 · 581 阅读 · 0 评论 -
Spark,一种快速数据分析替代方案
虽然 Hadoop 在分布式数据分析方面备受关注,但是仍有一些替代产品提供了优于典型 Hadoop 平台的令人关注的优势。Spark 是一种可扩展的数据分析平台,它整合了内存计算的基元,因此,相对于 Hadoop 的集群存储方法,它在性能方面更具优势。Spark 是在 Scala 语言中实现的,并且利用了该语言,为数据处理提供了独一无二的环境。了解 Spark 的集群计算方法以及它与 Hado转载 2015-08-25 13:27:18 · 859 阅读 · 0 评论 -
大数据为什么要选择Spark
Spark是一个基于内存计算的开源集群计算系统,目的是更快速的进行数据分析。Spark由加州伯克利大学AMP实验室Matei为主的小团队使用Scala开发开发,其核心部分的代码只有63个Scala文件,Spark是一个基于内存计算的开源集群计算系统,目的是更快速的进行数据分析。Spark由加州伯克利大学AMP实验室Matei为主的小团队使用Scala开发开发转载 2015-08-25 13:31:20 · 1853 阅读 · 3 评论 -
joy of data
http://www.joyofdata.de/blog/很好的一个网站,关于数据分析等等In this tutorial I am going to show you how to set upCUDA 7,cuDNN,caffe andDIGITS on ag2.2xlarge EC2 instance (running Ubuntu 14.04 64 bit)转载 2015-12-06 10:45:13 · 649 阅读 · 0 评论