scrapy框架入门案例-通过关键词爬取内容

最新推荐文章于 2024-07-30 09:53:24 发布

蜗牛壳上的小潘同志

最新推荐文章于 2024-07-30 09:53:24 发布

阅读量7.9k

点赞数 2

文章标签： scrapy 关键词入门爬虫框架

本文链接：https://blog.csdn.net/qq_40235133/article/details/102585551

版权

（1）创建scrapy项目并创建爬虫。

我用的是pycharm，在终端框输入scrapy startproject hbdt创建名字为hbdt的项目。接着输入scrapy genspider rw1 news.hbtv.com.cn创建名为rw1的爬虫。
在这里插入图片描述

（2）目标

我的目标是筛选湖北网台10月后所有标题带关键词为军运或者军人运动会的新闻，然后进入关键词所在新闻的url，下载它的题目和新闻内容。
在这里插入图片描述

（3）编写爬虫代码

# -*- coding: utf-8 -*-
import scrapy


class Rw1Spider(scrapy.Spider):
    name = 'rw1'
    allowed_domains = ['news.hbtv.com.cn']
    start_urls = ['http://news.hbtv.com.cn/hbxw1072?page=1']

    def parse(self, response):
        j1s = response.xpath("//a[@class='headers']/text()").extract()
        i = 0
        for j1 in j1s:
            if '军运'  in str(j1) or '军人运动会'  in str(j1):
                content_url = response.xpath("//section[@class='ov']//li//h3/a/@href").extract()[i]
                content_url = "http://news.hbtv.com.cn"

最低0.47元/天解锁文章

蜗牛壳上的小潘同志

关注

2
点赞
踩
19

收藏

觉得还不错? 一键收藏
5
评论
scrapy框架入门案例-通过关键词爬取内容

#（1）创建scrapy项目并创建爬虫。我用的是pycharm，在终端框输入scrapy startproject hbdt创建名字为hbdt的项目。接着输入scrapy genspider rw1 news.hbtv.com.cn创建名为rw1的爬虫。#（2）目标我的目标是筛选湖北网台10月后所有标题带关键词为军运或者军人运动会的新闻，然后进入关键词所在新闻的url，下载它的题目和新闻内...
复制链接

扫一扫