大数据
文章平均质量分 85
倏然希然_
CS
展开
-
ubuntu虚拟机中安装Hadoop全过程(单机分布方式+伪分布方式)
使用的虚拟机软件是:VMWare Workstation Pro 14虚拟机系统:Ubuntu 18.04注:涉及到的内容比较多,可直接点击相应链接查看对应内容目录创建新账户安装ssh安装vim在虚拟机中安装JDK并配置环境变量安装Eclipse(可选)安装HadoopHadoop伪分布模式修改启动HDFS伪分布式模式创建新账户参考文...原创 2019-03-06 21:09:12 · 29557 阅读 · 1 评论 -
Eclipse下导出scala程序为jar包
在eclipse下直接导出只含有scala程序的项目时,会找不到主类。解决方法:在项目中创建一个java class,通过这个java class来调用scala的object代码:public class ScalaRunner { public static void main(String[] args) { PageRank.main(args);//Pag...原创 2019-05-05 14:58:16 · 1393 阅读 · 0 评论 -
【大数据】PageRank网页排名图算法(MapReduce Java+Spark Scala)
实验环境:ubuntu 18.04hadoop 2.7.1JDK 1.8spark2.3.3scala 2.11.8目录一、实验原理二、用MapReduce实现PageRank三、用Spark实现PageRank一、实验原理1. 什么是PageRank PageRank是一种在搜索引擎中根据网页之间相互的链接关系计算网页排名的技术。 P...原创 2019-05-05 14:52:23 · 2561 阅读 · 0 评论 -
ubuntu18.04安装spark(scala编程环境)
安装配置Hadoop请查看:ubuntu虚拟机中安装Hadoop全过程(单机分布方式+伪分布方式)*参考文章:ubuntu18.04安装spark(伪分布式)安装scala1. 下载地址:https://www.scala-lang.org/download/2.11.8.html2. 解压到自己的目录sudo tar zxvf scala-2.11.8....原创 2019-04-23 12:14:04 · 2602 阅读 · 0 评论 -
【大数据】带词频属性的文档倒排索引算法实现
一、倒排索引介绍倒排索引(Inverted Index)被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射,是目前几乎所有支持全文索引的搜索引擎都需要依赖的一个数据结构。基于索引结构,给出一个词(term),能取得含有这个term的文档列表(the list of documents)。示例:Map:map输出的value除了文件名,还给出了该词所在行的偏移值。...原创 2019-04-19 16:42:01 · 3895 阅读 · 1 评论 -
ubuntu 18.04安装HBase
1. 下载HBase地址:https://mirrors.tuna.tsinghua.edu.cn/apache/hbase/2. 解压tar -zxvf hbase-1.4.9-bin.tar.gz3. 移动到自己的目录sudo mv hbase-1.4.9 /usr/local4. 进入conf目录,在hbase-env.sh后面添加如下内容,注意这里的JAV...原创 2019-04-07 16:47:23 · 1747 阅读 · 0 评论 -
ubuntu下的Eclipse配置Hadoop环境
安装JDK、Eclipse、hadoop见:ubuntu虚拟机中安装Hadoop全过程(单机分布方式+伪分布方式)版本:Hadoop 2.7.11. 下载Hadoop-eclipse-plugins-2.6.0.jar链接:https://pan.baidu.com/s/1htm5GJg77fq5LrobgdMYbw提取码:gwiy复制这段内容后打开百度网盘手机App,...原创 2019-03-19 21:44:44 · 1452 阅读 · 0 评论 -
Hadoop之词频统计WordCount
参考文章:Ubuntu16.04安装Hadoop单机和伪分布式环境超详细1. 启动HDFSstart-all.sh2. 查看HDFS下包含的文件目录hadoop dfs -ls /由于是第一次运行,没有文件3.在HDFS中创建一个文件目录input,将/usr/local/hadoop/README.txt上传至input中,此时再用ls查看就发现多了个in...原创 2019-03-06 21:53:14 · 3794 阅读 · 1 评论