scrapy爬虫的几个案例

博主分享了在mac环境下使用scrapy1.4.0爬取清华大学就业信息网的实践经验。通过分析网页结构,提取div标签内的就业信息,并通过for循环遍历多页数据。代码中还包括将爬取结果作为附件发送邮件的功能。实现过程涉及到了scrapy的爬取、数据处理及邮件发送。
摘要由CSDN通过智能技术生成

lz最近在学习scrapy爬虫框架,对于此框架,我自己用两个案例进行了实践,初步对这个框架掌握,就写一篇博客来记录下我的学习过程。

一、我的环境

mac+python2.7.6+scrapy1.4.0版本。对于scrapy在mac中的安装过程就不做介绍了。

二、爬取清华大学就业信息网的就业信息板块就业信息

清华大学就业信息网网址:

http://career.tsinghua.edu.cn/,具体爬取招聘信息板块内容,网址为:http://career.cic.tsinghua.edu.cn/xsglxt/f/jyxt/anony/xxfb

首先是分析此网页信息,需要把其中的每一条就业信息爬下来,在具体的html中可以通过一些标签来完善。具体的标签为/div[@class='content teacher']/div[2]/ul[@class='list'],在这个标签的路径下,我们可以进行提取。因为这一页中具体有10几条数据,所以需要用for循环来输出即可。但是因为这个招聘信息有好几页,所以需要进行轮询查找相关的页面并提取相关的页面信息进行提取。关于具体取哪个页面,这个参数是放在post提交数组的form_data的pgno字段。

具体的scrapy代码如下所示:

# -*- coding: utf-8 -*-

import re
import json
import datetime

from scrapy.selector import Selector
import scrapy.spiders
from scrapy.utils.response import get_base_url
from tsinghua.items import TsinghuaItem
import urlparse
from scrapy.utils.url import urljoin_rfc
import datetime,time
import codecs
import smtplib
from email.mime.application import MIMEApplication
from email.mime.text import MIMEText
from email.mime.image import MIMEImage
from email.mime.multipart import MIMEMultipart
from scrapy.mail import MailSender
from email.utils import parseaddr,formataddr
from email.header import Header
from email.mime.base import MIMEBase
from email import encoders
import os

class TsinghuaSpider(scrapy.spiders.Spider):
    name = "tsinghua"
    allowed_dom
  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值