利用 Hadoop FileSystem listStatus 遍历文件目录 实现HDFS操作

Hadoop 版本 2.7.0 利用 hadoop FileSystem listStatus 遍历文件目录 实现HDFS操作 package com.feng.test.hdfs.filesystem; import java.net.URI; import org.apache.h...

2017-07-19 15:40:58

阅读数 3084

评论数 0

自定义数据类型写入SequenceFile并读出

开头对这边博客的内容做个概述,首先是定义了一个DoubleArrayWritable的类,用于存放矩阵的列向量,然后将其作为value写入SequenceFile中,key就是对应的矩阵的列号,最后(key,value)从SequenceFile中读出,与另一矩阵做乘法。完全通过IDEA在本地调试...

2017-07-19 15:35:45

阅读数 449

评论数 0

将本地文件读成sequenceFile文件,处理海量小文件的一种方式

个人观点:当处理海量小文件时,先将小文件进行sequenceFile操作或者类似操作处理,然后再上传到HDFS系统进行下一步的处理。(如有其它建议,欢迎留言)   一、直接上传本地栅格数据将导致的问题                 根据栅格数据的特点,每层的图片个数都为上层数量的四倍。在第...

2017-07-19 15:31:28

阅读数 2683

评论数 0

Nutch教程——准备篇 by 逼格DATA

实在是看不下去Nutch官方的坑爹教程了,总结一套看完能懂的Nutch教程,持续更新中。 开发环境和基础: 学习Nutch,必须满足以下几个条件,缺一不可: 1)Linux环境,实在是没办法就在Windows上装linux虚拟机。 2)熟悉Java。 3)有Hadoop基础,能够编写hadoo...

2017-07-14 10:27:45

阅读数 448

评论数 0

读取nutch爬取内容方法

读取nutch内容有如下两种方法: 1 通过Nutch api SegmentReader读取。          public Content readSegment(String segPath,String url){                       ...

2017-07-14 10:04:44

阅读数 480

评论数 0

Nutch教程——导入Nutch工程,执行完整爬取 by 逼格DATA

在使用本教程之前,需要满足条件: 1)有一台Linux或linux虚拟机 2)安装JDK(推荐1.7) 3)安装Apache Ant 下载Nutch源码: 推荐使用Nutch 1.9,官方下载地址:http://mirrors.hust.edu.cn/apache/nutch/1...

2017-07-14 10:00:19

阅读数 261

评论数 0

VMWare中Ubuntu设置固定IP上网

操作系统有很多种,通常我们首先接触的是Windows,因为Windows有很好的交互桌面,易于使用,但是很多时候,我们同样需要学习其他的操作系统,如Linux,但是我们一般不再自己的电脑上装多个系统,那样会导致电脑运行比较慢,所以一般使用虚拟机软件装虚拟机,常用的虚拟机软件一般有VMWare和Vi...

2017-06-29 15:37:21

阅读数 214

评论数 0

hadoop 2.0中配置文件详解

配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml, yarn-default.xml四个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不同,导...

2017-06-08 18:32:36

阅读数 304

评论数 0

excel判断某一列中的数据是否在另一列中(含跨sheet)

1、在B列右边的空白列中,输入如下公式:=COUNTIF($A$1:$A$7,B1) 其中,$A1:$A7代表A列中的所有数据即绝对范围,B1代表B列中的一个单元格。如下图所示: 2、输入完成后,点击回车。单元格的数据就自动计算出来了。其中1就代表存在,0就代表不存在。如下图所示: ...

2017-06-08 10:22:17

阅读数 10441

评论数 0

将idea的java web项目导入eclipse

1、将将idea的java web项目导入eclipse后,目录结构和eclipse有很大不同,很多在项目右键Properties看不到,此时需修改项目所在目录的.project       文件       自己的项目名称 org.eclipse.jdt.core...

2017-06-05 18:03:00

阅读数 435

评论数 0

Map<String, String> 遍历的四种方法

   Map map = new HashMap();   map.put("key1", "value1");   map.put("key2", "value2");   map.put("k...

2017-05-19 12:13:23

阅读数 1320

评论数 0

hadoop中输入文件用LongWritable和IntWritable的区别

 这里的LongWritable的key是线的偏移量,表示该行在文件中的位置,而不是行号 这里的IntWritable的key是行号

2017-05-17 17:59:58

阅读数 5055

评论数 1

Ubuntu 14.04中gedit打开文件出现中文乱码问题

 在中文支持配置还不完整的Ubuntu 14.04中,使用gedit打开带有中文字符的文件有时会出现乱码的情况,这是由于gedit对字符编码匹配不正确导致的,解决方法如下:     在终端中输入如下命令,然后重新打开gedit即可:     gsettings set org.g...

2017-05-11 13:47:41

阅读数 305

评论数 0

汉字unicode编码范围

 GB2312编码:1981年5月1日发布的简体中文汉字编码国家标准。GB2312对汉字采用双字节编码,收录7445个图形字符,其中包括6763个汉字。 BIG5编码:台湾地区繁体中文标准字符集,采用双字节编码,共收录13053个中文字,1984年实施。 GBK编码:1995年12月发布...

2017-05-02 16:58:07

阅读数 18878

评论数 3

Java String.split()用法小结

 在java.lang包中有String.split()方法,返回是一个数组 我在应用中用到一些,给大家总结一下,仅供大家参考: 1、如果用“.”作为分隔的话,必须是如下写法,String.split("\\."),这样才能正确的分隔开,不能用String.split...

2017-04-27 16:07:56

阅读数 226

评论数 0

Hadoop学习之网络爬虫+分词+倒排索引实现搜索引擎案例

本项目实现的是:自己写一个网络爬虫,对搜狐(或者csdn)爬取新闻(博客)标题,然后把这些新闻标题和它的链接地址上传到hdfs多个文件上,一个文件对应一个标题和链接地址,然后通过分词技术对每个文件中的标题进行分词,分词后建立倒排索引以此来实现搜索引擎的功能,建立倒排索引不熟悉的朋友可以看看我上篇博...

2017-04-01 18:09:54

阅读数 310

评论数 0

基于Hadoop 的分布式网络爬虫技术学习笔记

基于Hadoop 的分布式网络爬虫技术学习笔记 一、网络爬虫原理 Web网络爬虫系统的功能是下载网页数据,为搜索引擎系统提供数据来源。很多大型的网络搜索引擎系统都被称为基于 Web数据采集的搜索引擎系统,比如 Google、Baidu。由此可见 Web 网络爬虫系统在搜索引擎中的重要性。网页中...

2017-03-31 18:26:10

阅读数 1626

评论数 0

URL,URLConnection,HttPURLConnection的使用

URLConnection与HttPURLConnection都是抽象类,无法直接实例化对象。其对象主要通过URL的openconnection方法获得。 值得注意的是: 1.openConnection方法只创建URLConnection或者HttPURLConnection实例,但...

2017-03-31 12:12:40

阅读数 297

评论数 0

centos 7下定时执行php脚本

1.vi /var/spool/cron/root打开root文件输入以下内容: 59 23 * * * /usr/local/php/bin/php /home/wwwroot/phpscripht/test.php >> /home/wwwroot/phpscripht/l...

2017-03-29 09:47:36

阅读数 2062

评论数 0

PHP零基础遍历查询数据库结果集

使用mysql的方式访问 $link = mysql_connect("localhost","root","snowdi"); mysql_select_db("数据库"); mysql_query...

2017-03-28 17:49:39

阅读数 6255

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭