scrapy初步-简单静态爬虫(爬取电影天堂所有电影)

本文介绍了如何在CentOS环境下使用Python 2.7部署Scrapy,以爬取电影天堂网站上的电影信息,包括下载地址、电影名称和主要信息。通过分析静态网页,编写爬虫程序,利用BeautifulSoup解析HTML,将数据存储到MongoDB数据库中。Scrapy项目结构包括spiders、items.py、pipelines.py、middlewares.py和settings.py等关键文件。爬虫程序首先从初始URL开始,解析数据并生成进一步的爬取URL,然后在pipelines中处理和存储数据。
摘要由CSDN通过智能技术生成
1.环境部署
  • 1:scrapy部署:我是在阿里云的centos+python2.7的环境下部署的scrapy。本人比较习惯使用python3.6.1。之前写爬虫程序的时候最经常用的是urllib.request库,其他要用到的模块在各个python版本大同小异。用python2.7的原因是linux自带的python版本默认是次版本,而我在编译安装python3.6的时候环境安装不全,导致安装scrapy之后创建工程的时候提示找不到_sqlite模块,索性直接用2.7 pip install scrapy搞定,安装过程中最常见的问题是提示找不到Twisted模块,下载之后解压cd到目录下运行python setup.py install搞定

  • 2:数据存储使用mongodb,这个数据库存储数据的格式和python字典的格式非常象,很容易理解

  • 3:网站分析,电影天堂的网站基本上都是静态的,没有涉及到javascript和ajax,所以信息提取非常简单,这里只爬取三个信息,分别是下载地址(source),电影名称(name),和主要信息(message)

  • 4:scrapy的使用,cd到部署项目的目录下,键入“scrapy startproject 项目名“创建项目,创建完成后用tree命令可以查看项目结构如下这里写图片描述

  • spiders:用与放置爬虫模块代码的目录,爬虫模块负责从网站中解析数据,需要继承scrapy.Spider类,并且至少定义一下几个属性

1.name属性:用于区别Spider,名字必须唯一。

2.start_urls属性 :Spider启动时的初始url,第一个爬取的页面

3.parse()函数:该函数传入的response参数向url发送请求后获得的响应,此方法获得数据后解析数据和生成进一步爬取的url

  • items.py:类似于jevaee中的javabean类,用于封装要爬取的数据的类,需要继承scrapy.Item类

  • piplines.py:用于对封装后的数据类进行处理,验证数据是否正确,储存数据或者直接丢弃数据,该类必须实现process_item()方法,传入item和spider参数,item是数据封装的类,spider代表爬取该item的spider。该类需要在setting.py中激活

  • middlewares.py:中间件,介于request/response之间的钩子程序,用于修改reuqest和response的类

  • settings.py:设置文件

2.程序编写
  • dytts_spider.py

import sys

sys.path.append(“…/”) #添加items.py模块

import scrapy

import urlparse

from bs4 import BeautifulSoup

import re

from items import DyttspiderItem

class DyttSpider(scrapy.Spider):

name = “dyttspiders” #爬虫名字

allowed_domains = [“ygdy8.com”] #允许爬取网页的域名

start_urls = [“http://www.ygdy8.com/html/gndy/dyzz/20130820/42954.html”] #初始url

def parse(self,response):

start_url = “http://www.ygdy8.com/” #用于构建完整的url

print(“is parse :%s”%response.url)

rep = re.compile(“<.*?>”) #用于提取电影内容的正则表达式

mat = r".*/\d&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值