Scrapy爬取网易新闻

最新推荐文章于 2021-12-10 14:41:59 发布

热心网友小周

最新推荐文章于 2021-12-10 14:41:59 发布

阅读量569

点赞数 3

本文链接：https://blog.csdn.net/qq_43267034/article/details/105807421

版权

本文介绍了如何使用Scrapy框架来爬取网易新闻，包括创建项目、定义items、解析页面、配置pipelines和settings，最后成功获取到数据并保存为CSV文件。

摘要由CSDN通过智能技术生成

创建一个scrapy项目

#在cmd中 依次输入 
#scrapy startproject news
#cd news
#scrapy genspider -t crawl news163 news.163.com

在这里插入图片描述

在items.py文件里输入要爬取的内容

import scrapy

class NewsItem(scrapy.Item):
    news_thread = scrapy.Field()
    news_title = scrapy.Field()
    news_time = scrapy.Field()
    news_source = scrapy.Field()
    source_url = scrapy.Field()
    news_text = scrapy.Field()
    news_url = scrapy.Field()

3.分析页面源代码并编写news163.py 文件
在这里插入图片描述

#导入需要的第三方库
import scrapy
from news.items import NewsItem
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider,Rule

#编写正则表达式
#https://news.163.com/20

最低0.47元/天解锁文章

热心网友小周

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
3
评论
Scrapy爬取网易新闻

创建一个scrapy项目#在cmd中依次输入 #scrapy startproject news#cd news#scrapy genspider -t crawl news163 news.163.com在items.py文件里输入要爬取的内容import scrapyclass NewsItem(scrapy.Item): news_thread = sc...
复制链接

扫一扫