网络爬虫
绝地反击T
世界那么大,我想去看看。
展开
-
搜索引擎整体结构图以及描述
搜索引擎整体结构图:爬虫从 Internet 中爬取众多的网页作为原始网页库存储于本地,然后网页分析器抽取网页中的主题内容交给分词器进行分词,得到的结果用索引器建立正排和倒排索引,这样就得到了索引数据库,用户查询时,在通过分词器切割输入的查询词组并通过检索器在索引数据库中进行查询,得到的结果返回给用户。无论搜索引擎的规模大小,其主要结构都是由这几部分构成的,并没有大的差别,转载 2015-08-02 16:40:02 · 3281 阅读 · 0 评论 -
http请求获取到的网页源码是字节数组还是字符串?
http请求获取到的网页源码是字节数组,并不是字符串。只有识别了网页所用的编码,例如utf8,将字节数组根据编码的规则,进行解码,才可以获得网页源码的字符串。编码是将字符串转换为字节数组的过程,解码是将字节数组转换成字符串的过程。原创 2015-08-15 14:49:43 · 1919 阅读 · 0 评论 -
搜索引擎之爬虫定义和爬虫搜索网页策略
网络爬虫概述之网路爬虫定义: 网路爬虫又被称为网页蜘蛛、网络机器人,是一种按照一定规则自动 抓取万维网的程序或脚本、 特点是:一定的规则、自动抓取、网络资源、程序或脚本网络爬虫概述之网页搜索策略: 广度优先搜索: 在完成当前层次的搜索之后才进行下一层次的搜索。认为与初始URL在一定链接距离内的网页具有主题相关性的概率阅读 最佳优先搜索原创 2015-08-20 08:46:42 · 2003 阅读 · 0 评论 -
转:网页爬取页面去重策略
网上搜集到的网页去重策略:1.通过MD5生成电子指纹来判断页面是否改变2.nutch去重策略:nutch中digest是对采集的每一个网页内容的32位哈希值,如果两个网页内容完全一样,它们的digest值肯定会一样,但哪怕其中之一多或少一个空格,它们的digest值就会不一样。所以,我认为,用digest做id是一个非常不错的选择。 如果nutch在两次不同的时间抓某个网页,例如转载 2015-09-25 22:42:11 · 3101 阅读 · 0 评论 -
执行./nutch 命令后出现的nutch脚本用法解读
Usage: nutch COMMAND where COMMAND is one of: inject inject new urls into the database :注入新的url到数据库中hostinject creates or updates an existing host table from a text file :从一个文本文件中创建原创 2015-09-25 23:56:53 · 847 阅读 · 0 评论 -
转:Nutch学习笔记--抓取过程简析
在上篇学习笔记中http://www.cnblogs.com/huligong1234/p/3464371.html 主要记录Nutch安装及简单运行的过程。笔记中 通过配置抓取地址http://blog.tianya.cn 并执行抓取命令 nohup ./bin/nutch crawl urls -dir data -threads 100 -depth 3 &进行了抓取。本次笔转载 2015-10-05 09:37:37 · 1223 阅读 · 0 评论 -
在eclipse中进行nutch1.7二次开发通过ant编译build.xml出现Class not found javac1.8
把nutch1.7通过svn导入到本地后打算进行二次开发却在开始用ant进行build.xml构建的时候出现Class not found javac1.8暂且不管哪个sonar没有找到的问题,我们先把那个Class not found :javac1.8的问题:多半是因为Ant版本太低,低于1.9,无法和java1.8兼容,因为我的java运行环境是1.8的,Ant版本也是1.8,所原创 2015-10-04 00:24:45 · 3274 阅读 · 0 评论 -
转载:通过Java API编程实现Nutch Crawler抓取数据存储到MySQL数据库
Nutch Crawler抓取数据并存储到MySQLApache Nutch是在Java平台上开发的开源网络爬虫工具。按照Nutch官方网站给出的向导,通过使用Nutch命令,可以比较容易地抓取指定种子网站的数据。不过,若是要通过它提供的Java API,以编程方式抓取数据,并存储到指定的数据存储,如MySQL,则有一些技巧或者说秘诀需要注意。经过这几天抽空进行的试验,并查询了相关资料,完转载 2015-09-22 11:19:16 · 2624 阅读 · 0 评论 -
转:nutch相干框架安装使用最佳指南
转:http://user.qzone.qq.com/281032878/blog/1342675154#!app=2&via=QZ.HashRefresh&pos=1362131478Chinese installing and using instruction - The best guidance in installing and using Nutch in China超清原转载 2015-07-19 17:16:45 · 736 阅读 · 0 评论 -
转:搜索引擎如何抓取互联网页面
先说说搜索引擎的原理吧。搜索引擎是把互联网上的网页内容存在自己的服务器上,当用户搜索某个词的时候,搜索引擎就会在自己的服务器上找相关的内容,这样就是说,只有保存在搜索引擎服务器上的网页才会被搜索到。哪些网页才能被保存到搜索引擎的服务器上呢?只有搜索引擎的网页抓取程序抓到的网页才会保存到搜索引擎的服务器上,这个网页抓取程序就是搜索引擎的蜘蛛.整个过程分为爬行和抓取。 一、 蜘蛛 搜索引擎转载 2015-07-19 21:14:01 · 3553 阅读 · 0 评论 -
转:使用Nutch和Solr抓取并索引网页
Nutch和Solr是两个由Apache成员创建的实用工具,你可以使用Nutch抓取网页,使用Solr索引你得到的数据。除了索引各类网站,这些工具还有很多其他功能,本文将不涉及这些,而是一篇针对如何使用Nutch抓取网页并使用Solr索引并搜索你抓取的数据的新手指南。本文将不会讨论它们如何工作的大量细节,而会告诉你如何运行一个爬虫和建立索引,我将假设你已经搭建好了tomcat服转载 2015-08-11 17:27:49 · 2334 阅读 · 0 评论 -
网络爬虫系统Heritrix的结构分析
随着网络时代的日新月异,人们对搜索引擎,网页的内容,大数据处理等问题有了更多的要求。如何从海量的互联网信息中选取最符合要求的信息成为了新的热点。在这种情况下,网络爬虫框架heritrix出现解决了这个问题。 Heritrix是一个开源的、java开发的、可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。转载 2014-10-22 22:33:32 · 1667 阅读 · 0 评论 -
Heritrix 和 Nutch的区别
总体来说Heritrix网络蜘蛛的功能更为强大,Nutch更好地支持搜索引擎(与Lucene紧密结合)。两者特点对比如下:Nutch是一个搜索引擎框架,而Heritrix专注于网络信息的下载。Nutch只获取并保存可索引的内容,并可对下载后有内容过滤修改,而Heritrix则可以适用各种类型信息,严格保持网页原貌。Nutch的更新策略是直接替换原来的旧网页,为索引作好准转载 2014-10-23 21:50:14 · 1196 阅读 · 0 评论 -
web爬虫 Heritrix
Heritrix是一个开源,可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。Heritrix是一个爬虫框架,其组织结构如图2.1所示,包含了整个组件和抓取流程:Heritrix采用的是模块化的设计,各个模块由一个控制器转载 2014-10-23 18:50:05 · 792 阅读 · 0 评论 -
Heritrix总结及消重算法初探
Heritrix是一个纯由java开发,并且开源的Web网络爬虫,用户可以使用它从网络上抓取资源。它具有良好的扩展性,我们可以通过扩展它的各个组件,来实现自己的抓取逻辑。Heritrix的操作模型如下: 图1. Heritrix操作模型用户通过web界面,定义抓取任务,包括定义抓取的范围(scope转载 2014-10-30 20:12:21 · 747 阅读 · 0 评论 -
robots.txt协议
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。转载 2014-11-02 19:12:19 · 1015 阅读 · 0 评论 -
深入学习Heritrix---解析CrawlController
当我们以Web UI方式使用Heritrix时,点击任务开始(start)按钮时,Heritrix就开始了它的爬取工作.但它的内部执行流程是怎样的呢?别急,下面将慢慢道来.(一)CrawlJobHandler当点击任务开始(start)按钮时,将执行它的startCrawler()方法:if(sAction.equalsIgnoreCase("start")){转载 2014-11-02 11:25:02 · 803 阅读 · 0 评论 -
Lucene的一个简单的标准测试(Lucene包基于3.5版本的)
Lucene编程一般分为:索引、分词、搜索索引源代码:package lucene的一个标准测试;import java.io.BufferedReader;import java.io.File;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStreamReader;原创 2015-03-22 09:39:29 · 1239 阅读 · 0 评论 -
LuceneDemo类的演示案例:建立索引、建立搜索,另外建立一个测试类TestLucene(用到JUnit)
LuceneDemo类的演示案例:建立索引、建立搜索(需要Lucene包3.5版本)package test;import java.io.File;import java.io.FileReader;import java.io.IOException;import org.apache.lucene.analysis.standard.StandardAnalyzer;imp原创 2015-03-22 12:01:29 · 772 阅读 · 1 评论 -
转:基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎
基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎 网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎,用来对网络爬虫抓取到的网络资源进行实时的索引和搜索。 搜 索引擎架构在ElasticS转载 2015-07-16 12:15:27 · 935 阅读 · 0 评论 -
转:cygwin简单应用及Nutch之Crawler工作流程
cygwin简单应用:cygwin home 目录:ls / -- 根目录ls /cygdrive -- 查看本地操作系统的盘符,如c盘、d盘pwd -- 当前位置路径/home/zf -- 对应目录在 \cygwin\home\zf,cygwin的安转载 2015-09-25 22:47:09 · 782 阅读 · 0 评论