自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 资源 (4)
  • 收藏
  • 关注

转载 Cloudera Hue 使用经验分享,遇到的问题及解决方案

在使用Cloudera Hue时遇到一问题: 1. 使用Sqoop导入功能时,由于配置错误,使得“保存运行”后Job并不能正常提交,且界面上没有相关提示。解决办法:使用Hue的Sqoop shell -》 start job --jid * 提交会出现一些错误提示然后再去/var/log/sqoop/里面查看log2. 在使用Job Designer设计Sqoo

2015-04-27 09:40:22 4082

转载 Hue二次开发(一):创建App

一、版本基于2.5版本的源码。二、技术架构 三、编译$ git clone http://github.com/cloudera/hue.git$ cd hue$ make apps复制代码Hue会将所有依赖都打在自己的build目录里。需要maven,依赖jdk1.6版本。四、例子4.1创建一个app

2015-04-27 09:39:41 2477

转载 cloudera hue安装及Oozie的安装

下载hue 1.2下载地址:https://github.com/cloudera/hue/downloads/HADOOP_HOME=/hadoop/hadoop0.20.2 PREFIX=/hadoop/hue make install复制代码以前叫cloudera desktop,使用django作为web框架1. 安装wait

2015-04-27 09:37:31 2787

转载 从零教你在Linux环境下(ubuntu 12.04)如何编译hadoop2.4

一、首先下载hadoop源码包下载的方式还是比较多的1.svn的方式svn下载首先需要安装SVN,如果想尝试使用svn,可以参考源码管理、获取网络源码工具:TortoiseSVN使用手册,hadoop的svn下载地址点此2.压缩包的方式这里我们介绍一种压缩包的方式。首先我们登录官网:http://hadoop.apache.org/,我们找到下面链接,点进去下载即可。如

2015-04-27 09:23:59 441

转载 如何入门 Python 爬虫?

如何入门 Python 爬虫?“入门”是良好的动机,但是可能作用缓慢。如果你手里或者脑子里有一个项目,那么实践起来你会被目标驱动,而不会像学习模块一样慢慢学习。另外如果说知识体系里的每一个知识点是图里的点,依赖关系是边的话,那么这个图一定不是一个有向无环图。因为学习A的经验可以帮助你学习B。因此,你不需要学习怎么样“入门”,因为这样的“入门”点根本不存在!你需要学习的是怎么样做

2015-04-27 09:12:02 969 1

转载 Spark编程指南——Python版

自开源之日至今,Spark已经5岁了。从最初不到4000行代码发展到当下通用大数据处理引擎的有力竞争者,Spark一直保持着小而紧凑,使许多开发人员更容易理解,也让升级起来更加方便。快、通用让Spark如鱼得水,然而对于1个年仅5岁的开源项目来说,其远谈不上尽善尽美,就比如文档相关。近日 @Cholerae从官网翻译了Spark编程指南Python版,并发布于其 个人博客。以下为原文

2015-04-26 17:30:59 3442

转载 浅谈开源大数据平台的演变

一说到开源大数据处理平台,就不得不说此领域的开山鼻祖Hadoop,它是GFS和MapReduce的开源实现。虽然在此之前有很多类似的分布式存储和计算平台,但真正能实现工业级应用、降低使用门槛、带动业界大规模部署的就是Hadoop。得益于MapReduce框架的易用性和容错性,以及同时包含存储系统和计算系统,使得Hadoop成为大数据处理平台的基石之一。Hadoop能够满足大部分

2015-04-24 09:50:37 452

转载 后Hadoop时代的大数据架构

后Hadoop时代的大数据架构2015-04-23 CSDN大数据提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多东西发生了变化,版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平台时代,这不是说不用Hadoop,而是像NoSQL(Not Only SQL)那样,有其他的选型补充。我在知乎上也写过Hadoop的

2015-04-23 17:21:48 710

转载 Hadoop大数据平台运维工程师须掌握的基本命令集分享

本博文收集和整理了在日常维护hadoop集群时运维工程师需要掌握的最基本的hadoop管理与维护的相关命令,在此分享出来供大家参考学习~博主也是刚刚接触hadoop不久,如有问题欢迎批评指正~非常感谢1、列出所有Hadoop Shell支持的命令$ bin/hadoop fs -help2、显示关于某个命令的详细信息$ bin/hadoop fs -help com

2015-04-22 11:59:51 655

转载 55种开源数据可视化工具简介

http://cwiki.apache.org/confluence/display/AMBARI/Installation+Guide+for+Ambari+2.0.0

2015-04-22 09:45:25 720

转载 Hadoop web页面的授权设定

一、相关概念  在默认情况下,Hadoop相关的WEB页面(JobTracker, NameNode, TaskTrackers and DataNodes)是不需要什么权限验证就可以直接进入的,谁都可以查看到当前集群上有哪些作业在运行,这对安全来说是很不合理的。我们应该限定用户来访问Hadoop相关的WEB页面,只有授权的用户才能看到自己授权的作业等信息,而不应该看到他不该看到的。其

2015-04-20 11:44:15 4359

原创 Java返回对象快捷键

选择内容之后按alt+shift+l

2015-04-15 13:34:30 3490

原创 Linux文件系统查看硬盘,内存,释放缓存命令

对于使用Linux系统的初级用户,本文提供了查看Linux硬盘,内存的命令。有时系统缓存cache太大,严重影响了内存使用,本文提供了如何释放缓存的方法。查看硬盘大小及剩余空间命令 df -h .如下图所示,当前文件系统共有130G,使用了107G,还有17G剩余。查看当前文件夹大小首先要切换到

2015-04-13 17:36:56 2376

转载 中国大数据综合服务提供商Top100排行榜

随着移动互联网的飞速发展,信息的传输日益方便快捷,端到端的需求也日益突出,纵观整个移动互联网领域,数据已被认为是继云计算、物联网之后的又一大颠覆性的技术性革命,毋庸置疑,大数据市场是待挖掘的金矿,其价值不言而喻。可以说谁能掌握和合理运用用户大数据的核心资源,谁就能在接下来的技术变革中进一步发展壮大。大数据,可以说是史上第一次将各行各业的用户、方案提供商、服务商、运营商以及整个生

2015-04-09 17:14:02 3642

原创 通过SparkR在R上运行Spark

R依然是数据学家手中最强大的语言之一,其实早在2014年一月底,加州大学伯克利分校的AMPLab就宣布发布了其SparkR项目的开发者预览版,该版本使用了基于原生R语言的Apache Saprk,但是其使用难度还是在不断增加。作为一个大规模处理内存中数据的大数据框架,Apache Saprk最近积攒了大量人气,像Cloudera这样的大公司已经表示大力支持该项目了。Cloudera最近宣布在其

2015-04-02 16:17:35 1746

原创 大数据架构师基础:hadoop家族,Cloudera系列产品介绍

大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来。为了能够更好的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师选择合适的技术,了解大数据各种技术之间的关系,选择合适的语言。我们可以带着下面问题来阅读本文章:1.hadoop都包含什么技术?2.Cloudera公司与ha

2015-04-02 11:16:40 541

原创 人工智能、机器学习、统计学、数据挖掘之间有什么区别?

机器学习是一门涉及自学习算法发展的科学。这类算法本质上是通用的,可以应用到众多相关问题的领域。数据挖掘是一类实用的应用算法(大多是机器学习算法),利用各个领域产出的数据来解决各个领域相关的问题。统计学是一门研究怎样收集,组织,分析和解释数据中的数字化信息的科学。统计学可以分为两大类:描述统计学和推断统计学。描述统计学涉及组织,累加和描绘数据中的信息。推断统计学涉及使用抽样数据来推断

2015-04-01 17:58:05 885

转载 “医学数据银行”——临床大数据科研协作平台

自上世纪九十年代以来,我国医疗信息化开始萌芽并迅速发展,目前医院的自身业务管理层面的信息化已经基本趋于成熟。然而由于医院侧重经营和管理层面、科室和医生之间竞争侧重经济收入,以及临床科研投入产出相对滞后等原因,临床科研层面的信息化建设相对滞后,甚至很多单位基本上处于空白状态。这不利于我国医学的临床、科研和教学工作的健康发展,不利于医疗健康产业的整体性的持续性的均衡发展。上海纳呈网络科技有

2015-04-01 15:57:50 2791

华为数据之道知识总结.xmind

华为数据之道知识总结.xmind

2021-02-22

数据治理知识体系.xmind

数据治理涉及组织体系、标准体系、流程体系、评价体系、技术体系几方面的内容,主要包含:元数据管理、主数据管理、数据标准管理、数据质量管理、数据安全管理等内容。

2021-01-31

基于Elasticsearch2.1.1的JavaAPI基本操作代码示例

基于Elasticsearch2.1.1的JavaAPI基本操作代码示例

2016-01-22

《医学信息决策与支持系统》题库

《医学信息决策与支持系统》题库,最完整的医学决策练习题。

2014-07-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除