利用scrapy将进行一个网站的爬取

最新推荐文章于 2024-05-13 00:51:49 发布

置顶

研客9527

最新推荐文章于 2024-05-13 00:51:49 发布

阅读量615

点赞数 2

分类专栏： python

本文链接：https://blog.csdn.net/cxl234/article/details/88945278

版权

安装部分请参考百度文档

源码示例

https://github.com/shanxiguowang/bole_crawl

1.先创建一个项目

2. 切换到创建项目的文档下

cd itemname

3. 创建一个规则爬虫

item_spider : 就是你要创建爬虫的名字
“item.com”：爬虫目标网站的域名

我们进入这个爬虫来写逻辑代码

这里我们以抓取csdn为例

CsdnSpider

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider,Rule
from csdn_spider.items import CsdnSpiderItem
import re

class CsdnSpider(CrawlSpider):
    name = 'csdn'
    allowed_domains = ['csdn.net']
    start_urls = ['https://www.csdn.net']

    rules = (
        Rule(LinkExtractor(allow=r'.+/nav/lang'),  follow

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

研客9527

关注关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
利用scrapy将进行一个网站的爬取

安装部分请参考百度文档1.先创建一个项目2. 切换到创建项目的文档下cd itemname3. 创建一个规则爬虫item_spider : 就是你要创建爬虫的名字“item.com”：爬虫目标网站的域名我们进入这个爬虫来写逻辑代码这里我们以抓取csdn为例CsdnSpider#mport scrapyfrom scrapy.linkextractors import L...
复制链接

扫一扫