scrapy入门例子：获取百度热搜

最新推荐文章于 2024-07-17 13:15:13 发布

svygh123

最新推荐文章于 2024-07-17 13:15:13 发布

阅读量726

点赞数 5

分类专栏： python 编程爬虫文章标签： scrapy 百度 python 爬虫

本文链接：https://blog.csdn.net/svygh123/article/details/139552398

版权

编程同时被 3 个专栏收录

122 篇文章 0 订阅

订阅专栏

python

59 篇文章 0 订阅

订阅专栏

爬虫

10 篇文章 0 订阅

订阅专栏

想要创建一个Scrapy项目来爬取百度的搜索结果，虽然百度的搜索结果通常受到robots.txt的限制并且可能需要处理JavaScript渲染的内容，但我们可以创建一个基础的Scrapy项目来演示如何定义这样的结构和爬虫。请注意，实际爬取百度或其他大型网站时，应遵守其robots.txt规则和使用条款。

创建Scrapy项目

在命令行中创建一个新的Scrapy项目：

scrapy startproject baidu_scraper

定义Item

在baidu_scraper/baidu_scraper/items.py文件中，定义一个BaiduResultItem类：

import scrapy

class BaiduResultItem(scrapy.Item):
    seq = scrapy.Field()
    title = scrapy.Field()

编写Spider

在baidu_scraper/baidu_scraper/spiders目录下创建一个名为baidu_spider.py的文件，并编写你的Spider：

import scrapy
from baidu_scraper.items import BaiduResultItem

class BaiduSpider(scrapy.Spider):
    name = 'baidu'
    allowed_domains = ['baidu.com']
    start_urls = ['https://www.baidu.com']

    def parse(self, response):
        # 使用XPath选择热搜的li元素    
        hots = response.xpath('//*[@id="s_xmancard_news_new"]/div/div[1]/div/div/ul/li')    
        # 解析每个搜索结果的序号和标题
        for hot in hots:
            item = BaiduResultItem()
            item['seq'] = hot.xpath('./a/span[0]/text()').get()
            item['title'] = hot.xpath('./a/span[1]/text()').get()
            print(item)
            yield item