网络爬虫框架scrapy介绍及应用——抓取新浪新闻的标题内容评论

最新推荐文章于 2024-07-03 14:03:28 发布

原创

最新推荐文章于 2024-07-03 14:03:28 发布 · 1.1w 阅读

·

4

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#网络爬虫 #python #新浪 #scrapy #spider

本文介绍了网络爬虫框架Scrapy，包括其整体架构、工程文件结构，并通过实例展示了如何创建一个爬虫来抓取新浪新闻的标题、内容和评论。在实践中，特别强调了爬取策略、速度控制以及文件限制等问题。

一、综述

开始这篇博文之前，调研了相关的爬虫方法，简单罗列冰山一角。

综述：
http://www.crifan.com/summary_about_flow_process_of_fetch_webpage_simulate_login_website_and_some_notice/

手动编写爬虫，httpclient 是常用工具。常见的请求方式有httpget 和httppost
http://blog.csdn.net/mr_tank_/article/details/17454315
http://blog.csdn.net/chszs/article/details/16854747
http://www.yeetrack.com/?p=779 这个教程很全面。供参考和备查

htmlunit

httpclient 对js 的支持比较差，有时候需要使用htmlunit 或者selenium。
http://www.360doc.com/content/13/1229/14/14875906_340995211.shtml
http://blog.csdn.net/strawbingo/article/details/5768421
http://www.cnblogs.com/microsoftmvp/p/3716750.html

抽取相关
当爬取了html 后，需要去除噪声广告，抽取有用的信息。jsoup 和tika 是非常强大的工具
http://jsoup.org/cookbook/
http://summerbell.iteye.com/blog/565922

github 开源爬虫库

https://github.com/CrawlScript/WebCollector
https://github.com/zhuoran/crawler4j

开源爬虫框架nutch

http://www.cnblogs.com/xuekyo/archive/2013/04/18/3028559.html

http://ahei.info/nutch-tutorial.htm

http://lc87624.iteye.com/blog/1625677

由于要学习python语言，就关注了python爬虫的方法，scrapy框架是个成熟的开源爬虫框架，因此选择其作为学习内容。

Scrapy是一个基于Twisted，纯Python实现的爬虫框架，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容、图片、视频等，非常方便。

二、scrapy框架

1、整体架构如下：

绿线是数据流向，首先从初始URL 开始，Scheduler 会将其交给 Downloader 进行下载，下载之后会交给 Spider 进行分析，Spider分析出来的结果有两种：一种是需要进一步抓取的链接，例如之前分析的“下一页”的链接，这些东西会被传回 Scheduler ；另一种是需要保存的数据，它们则被送到Item Pipeline 那里，那是对数据进行后期处理（详细分析、过滤、存储等）的地方。另外，在数据流动的通道里还可以安装各种中间件，进行必要的处理。参考博客

2、工程文件介绍

假设你已经配置好环境了，进入某个文件夹pythonproject，在命令行中输入

scrapy startproject mypro

即可在pythonporoject文件夹下找到mypro的工程文件夹，结构如下：

├── mypro

│ ├── mypro

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 7

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。