大数据
fox_wayen
像狐狸一样思考,学术也是一样。
展开
-
FreeNAS SMB文件共享及用户权限使用配置
假设公司有A,B,C三个部门,要求每个部门人员只能访问自己部门的文件,同时每个部门内设置一个文件管理员,可对本部门文件进行管理,其他则只允许读取和执行。另外再建一个公共文件区,让大家都可以访问。1.新建用户组依次建立:1.group_a2.group_b3.group_c2.添加用户组名 用户名 ...转载 2019-06-24 16:37:00 · 7158 阅读 · 0 评论 -
海量数据处理 算法总结
1. Bloom Filter【Bloom Filter】Bloom Filter(BF)是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。它是一个判断元素是否存在集合的快速的概率算法。Bloom Filter有可能会出现错误判断,但不会漏掉判断。也就是Bloom Filter判断元素不再集合,那肯定不在。如果判断元素存在集合中,有一定的概率判断...转载 2018-05-16 21:10:11 · 560 阅读 · 0 评论 -
使用Hadoop命令行执行jar包详解(生成jar、将文件上传到dfs、执行命令、下载dfs文件至本地)
目录(?)[-]一Eclipse中生成jar包二将本地文件上传至dfs文件系统三执行jar包四本地文件的查看及下载至本地在之前一篇:Eclipse中使用Hadoop单机模式开发配置及简单程序示例,我们讲了如何在eclipse配置文件信息以及如何执行Map/Reduce程序,本篇基于这篇文章的代码总结一下使用hadoop命令行执行jar包的流程,主要包括生成jar、将本地文件上传至d转载 2017-12-29 19:37:15 · 1425 阅读 · 0 评论 -
hadoop中使用MapReduce编程实例
原文链接:http://www.cnblogs.com/xia520pi/archive/2012/06/04/2534533.html从网上搜到的一篇hadoop的编程实例,对于初学者真是帮助太大了,看过以后对MapReduce编程基本有了大概的了解。看了以后受益匪浅啊,赶紧保存起来。 1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数转载 2017-12-28 19:34:12 · 1365 阅读 · 0 评论 -
Hadoop学习笔记(4)-Eclipse下搭建Hadoop2.6.4开发环境并写wordcount
0.前言本文参考博客:http://www.51itong.net/eclipse-hadoop2-7-0-12448.html搭建开发环境前保障已经搭建好hadoop的伪分布式。可参考上个博客: http://blog.csdn.net/xummgg/article/details/511730721.下载安装eclipse下载网址:http://www.eclipse.转载 2017-12-27 22:46:37 · 284 阅读 · 0 评论 -
MapReduce原理与设计思想
简单解释 MapReduce 算法一个有趣的例子你想数出一摞牌中有多少张黑桃。直观方式是一张一张检查并且数出有多少张是黑桃?MapReduce方法则是:给在座的所有玩家中分配这摞牌让每个玩家数自己手中的牌有几张是黑桃,然后把这个数目汇报给你你把所有玩家告诉你的数字加起来,得到最后的结论拆分MapReduce合并了两种经典函数:映射(Mapping)对集合里的转载 2017-12-28 14:12:09 · 380 阅读 · 0 评论 -
Hadoop2.6安装配置以及整合Eclipse开发环境
在Ubuntu14.04上安装Java和Hadoop环境Java安装的是/usr/lib/jvm/jdk1.7.0_721.下载,2.使用sudo创建jvm文件夹,并且cp3.解压tar–zxvf4.sudochown -R castle:castle hadoop-2.6.0修改权限5.配置环境变量~/.profile中也可以在~/.bashrc中添加#setja转载 2017-12-27 20:30:57 · 482 阅读 · 0 评论 -
hadoop的文件的配置
core-site.xml 文件配置 fs.defaultFS hdfs://master:9000 hadoop.tmp.dir file:/home/hadoop/hadoop/tmp原创 2017-12-27 20:10:53 · 201 阅读 · 0 评论 -
Hadoop2.7.3完全分布式集群搭建和测试
这几天在学习Hadoop相关的东西,前些时候,搭建了单机和伪分布式的集群。但是在搭建完全分布式集群的时候遇到很多问题,网上找到很多文章,感觉都有些差别,因此,再次汇总一下,把我的详细的搭建过程记录下来。参考了很多篇文章:http://www.w2bc.com/Article/19645 http://blog.csdn.net/转载 2017-12-27 19:57:48 · 252 阅读 · 0 评论 -
Hadoop入门基础教程 Hadoop之完全分布式环境搭建
开发环境硬件环境:CentOS 6.5 服务器4台(一台为Master节点,三台为Slave节点)软件环境:Java 1.7.0_45、hadoop-1.2.11、 集群拓扑图我们使用4台机器来搭建Hadoop完全分布式环境,4台机器的拓扑图如下图所示:Hadoop集群中每个节点的角色如下表所示:2、 配置SSH环境准备下面以配置K-Ma转载 2017-12-27 19:55:03 · 172 阅读 · 0 评论 -
一步步教你Hadoop多节点集群安装配置
1、集群部署介绍1.1 Hadoop简介Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统HDFS(Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。对于Hadoop的集群来讲,可以分成两大类角色:转载 2017-12-27 19:53:18 · 250 阅读 · 0 评论 -
Linux下Hadoop2.7.1集群环境的搭建(超详细版)
本文旨在提供最基本的,可以用于在生产环境进行Hadoop、HDFS分布式环境的搭建,对自己是个总结和整理,也能方便新人学习使用。一、基础环境在Linux上安装Hadoop之前,需要先安装两个程序:1.1 安装说明1. JDK 1.6或更高版本(本文所提到的安装的是jdk1.7);2. SSH(安全外壳协议),推荐安装OpenSSH。 下面简述一下安装转载 2017-12-27 19:50:13 · 245 阅读 · 0 评论 -
【Hadoop】搭建完全分布式的hadoop
用于测试,我用4台虚拟机搭建成了hadoop结构我用了两个台式机。一个xp系统,一个win7系统。每台电脑装两个虚拟机,要不然内存就满了。 1、安装虚拟机环境 Vmware,收费产品,占内存较大。 或 Oracle的VirtualBox,开源产品,占内存较小,但安装ubuntu过程中,重启会出错。 我选Vmware。 2、安装转载 2017-12-27 19:47:33 · 237 阅读 · 1 评论 -
Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04
当开始着手实践 Hadoop 时,安装 Hadoop 往往会成为新手的一道门槛。尽管安装其实很简单,书上有写到,官方网站也有 Hadoop 安装配置教程,但由于对 Linux 环境不熟悉,书上跟官网上简略的安装步骤新手往往 Hold 不住。加上网上不少教程也甚是坑,导致新手折腾老几天愣是没装好,很是打击学习热情。本教程适合于原生 Hadoop 2,包括 Hadoop 2.6.0, Hado转载 2017-12-23 23:04:47 · 181 阅读 · 0 评论 -
中文分词技术(中文分词原理)
一、 为什么要进行中文分词?词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。Lucene中对中文的处理是基于自动切分的单字切分,或者二元切分。除此之外,还有最大切分(包括向前、向后、以及前后相结合)、最少切分、全切分等等。二、转载 2017-11-01 17:10:58 · 6399 阅读 · 0 评论 -
中文分词之Java实现使用IK Analyzer实现
IK Analyzer是基于lucene实现的分词开源框架,下载路径:http://code.google.com/p/ik-analyzer/downloads/list需要在项目中引入:IKAnalyzer.cfg.xmlIKAnalyzer2012.jarlucene-core-3.6.0.jarstopword.dic什么都不用改示例转载 2017-11-03 19:25:19 · 3151 阅读 · 0 评论