scrapy爬虫的几个案例

最新推荐文章于 2024-08-10 17:00:15 发布

IT独白者

最新推荐文章于 2024-08-10 17:00:15 发布

阅读量3.6k

点赞数

分类专栏： scrapy

本文链接：https://blog.csdn.net/sun_wangdong/article/details/78340578

版权

博主分享了在mac环境下使用scrapy1.4.0爬取清华大学就业信息网的实践经验。通过分析网页结构，提取div标签内的就业信息，并通过for循环遍历多页数据。代码中还包括将爬取结果作为附件发送邮件的功能。实现过程涉及到了scrapy的爬取、数据处理及邮件发送。

摘要由CSDN通过智能技术生成

lz最近在学习scrapy爬虫框架，对于此框架，我自己用两个案例进行了实践，初步对这个框架掌握，就写一篇博客来记录下我的学习过程。

一、我的环境

mac+python2.7.6+scrapy1.4.0版本。对于scrapy在mac中的安装过程就不做介绍了。

二、爬取清华大学就业信息网的就业信息板块就业信息

清华大学就业信息网网址：

http://career.tsinghua.edu.cn/，具体爬取招聘信息板块内容，网址为：http://career.cic.tsinghua.edu.cn/xsglxt/f/jyxt/anony/xxfb

首先是分析此网页信息，需要把其中的每一条就业信息爬下来，在具体的html中可以通过一些标签来完善。具体的标签为/div[@class='content teacher']/div[2]/ul[@class='list']，在这个标签的路径下，我们可以进行提取。因为这一页中具体有10几条数据，所以需要用for循环来输出即可。但是因为这个招聘信息有好几页，所以需要进行轮询查找相关的页面并提取相关的页面信息进行提取。关于具体取哪个页面，这个参数是放在post提交数组的form_data的pgno字段。

具体的scrapy代码如下所示：

# -*- coding: utf-8 -*-

import re
import json
import datetime

from scrapy.selector import Selector
import scrapy.spiders
from scrapy.utils.response import get_base_url
from tsinghua.items import TsinghuaItem
import urlparse
from scrapy.utils.url import urljoin_rfc
import datetime,time
import codecs
import smtplib
from email.mime.application import MIMEApplication
from email.mime.text import MIMEText
from email.mime.image import MIMEImage
from email.mime.multipart import MIMEMultipart
from scrapy.mail import MailSender
from email.utils import parseaddr,formataddr
from email.header import Header
from email.mime.base import MIMEBase
from email import encoders
import os

class TsinghuaSpider(scrapy.spiders.Spider):
    name = "tsinghua"
    allowed_dom