爬虫与搜索引擎
刘元涛
活着只为改变世界
展开
-
使用注解编写WebMagic爬虫
原文出自:http://webmagic.io/docs/zh 访问经常出错,于是把文档转到自己博客里WebMagic支持使用独有的注解风格编写一个爬虫,引入webmagic-extension包即可使用此功能。在注解模式下,使用一个简单对象加上注解,可以用极少的代码量就完成一个爬虫的编写。对于简单的爬虫,这样写既简单又容易理解,并且管理起来也很方便。这也是WebMagic的一大特色,转载 2015-12-15 12:38:04 · 5067 阅读 · 7 评论 -
基于Python,爬取豆瓣读书源码
记得上次分享了一个抓取豆瓣妹子美女图片的脚本,今天给大家分享一个爬取豆瓣读书的源码,也算是做个记录吧,目前已经在学习编程的路上,以后要是想写什么爬虫也可以参考参考自己收藏的一些代码,嗯,虽然我还是个代码小白,不过相信有一天我也能很轻松的写出这样的代码,加油!我不是作者,我只是勤劳的搬运工!贴出部分代码,源码到文章底部下载:#!/usr/bin/env python#转载 2015-12-22 16:50:04 · 2000 阅读 · 0 评论 -
ElasticSearch-2.0.0集群安装配置与API使用实践
ElasticSearch是基于全文搜索引擎库Lucene构建的分布式搜索引擎,我们可以直接使用ElasticSearch实现分布式搜索系统的搭建与使用,都知道,Lucene只是一个搜索框架,它提供了搜索引擎操作的基本API,如果要实现一个能够使用的搜索引擎系统,还需要自己基于Lucene的API去实现,工作量很大,而且还需要很好地掌握Lucene的底层实现原理。ElasticSearch是一转载 2016-01-12 13:29:37 · 906 阅读 · 0 评论 -
手撕包菜BT搜索引擎带爬虫自动抓取安装
看过网络上各种各样的BT搜索网站,但是最喜欢的还是手撕菜包(bt.shousicaibao.com),目前这个网站好像已经打不开了,也许作者无心经营,但是他(xiaoxia)给我们留下了开源的源码,这是极好的。目测此源码是基于python+mariadb/mysql写的,django做web服务器,我没有测试过,因为服务器不给力,但是有人给出了搭建方法:1.linux系统。转载 2015-12-22 16:41:30 · 21322 阅读 · 0 评论 -
WebMagic-使用入门
原文出自:http://webmagic.io/docs/zh 访问经常出错,于是把文档转到自己博客里1基本的爬虫在WebMagic里,实现一个基本的爬虫只需要编写一个类,实现PageProcessor接口即可。这个类基本上包含了抓取一个网站,你需要写的所有代码。同时这部分还会介绍如何使用WebMagic的抽取API,以及最常见的抓取结果保存的问题。1.1 实现PagePr转载 2015-12-15 12:33:47 · 30537 阅读 · 7 评论 -
WebMagic-介绍
原文出自:http://webmagic.io/docs/zh 访问经常出错,于是把文档转到自己博客里1.WebMagic概览1.1 WebMagic的设计思想1. 一个框架,一个领域一个好的框架必然凝聚了领域知识。WebMagic的设计参考了业界最优秀的爬虫Scrapy,而实现则应用了HttpClient、Jsoup等Java世界最成熟的工具,目标就是做一个Java语转载 2015-12-15 12:29:01 · 1968 阅读 · 0 评论 -
Webmagic-定制组件
原文出自:http://webmagic.io/docs/zh 访问经常出错,于是把文档转到自己博客里在第一章里,我们提到了WebMagic的组件。WebMagic的一大特色就是可以灵活的定制组件功能,实现你自己想要的功能。在Spider类里,PageProcessor、Downloader、Scheduler和Pipeline四个组件都是Spider的字段。除了PageProcess转载 2015-12-15 12:42:33 · 5489 阅读 · 0 评论 -
WebMagic抓取前端Ajax渲染的页面
抓取前端渲染的页面随着AJAX技术不断的普及,以及现在AngularJS这种Single-page application框架的出现,现在js渲染出的页面越来越多。对于爬虫来说,这种页面是比较讨厌的:仅仅提取HTML内容,往往无法拿到有效的信息。那么如何处理这种页面呢?总的来说有两种做法:在抓取阶段,在爬虫中内置一个浏览器内核,执行js渲染页面后,再抓取。这方面对应的工具有Seleni转载 2015-12-15 12:48:19 · 16417 阅读 · 0 评论 -
WebMagic爬新浪博客
列表+详情的基本页面组合我们先从一个最简单的例子入手。这个例子里,我们有一个列表页,这个列表页以分页的形式展现,我们可以遍历这些分页找到所有目标页面。示例介绍这里我们以作者的新浪博客http://blog.sina.com.cn/flashsword20作为例子。在这个例子里,我们要从最终的博客文章页面,抓取博客的标题、内容、日期等信息,也要从列表页抓取博客的链接等信息,从而获取这个博转载 2015-12-15 12:47:41 · 2224 阅读 · 0 评论 -
DHT 爬虫的学习记录
DHT协议原理以及一些重点分析: 要做DHT的爬虫,首先得透彻理解DHT,这样才能知道在什么地方究竟该应用什么 算法 去解决 问题 。关于DHT协议的细节以及重要的参考 文章 ,请参考文末1 DHT协议作为BT协议的一个辅助,是非常好玩的。它主要是为了在BT正式下载时得到种子或者BT资源。传统的网络,需要一台中央服务器存放种子或者BT资源,不仅浪费服务器资源,还容易出现单点转载 2015-12-24 19:54:10 · 3366 阅读 · 1 评论