用scapy获取网页信息

最新推荐文章于 2022-08-15 09:20:31 发布

Baldy_qiang

最新推荐文章于 2022-08-15 09:20:31 发布

阅读量746

点赞数

文章标签：爬虫

本文链接：https://blog.csdn.net/Baldy_qiang/article/details/123943842

版权

本文介绍了如何利用Scrapy框架在Windows环境下创建并配置爬虫项目，从v.qq.com获取信息。首先通过CMD进入桌面并启动Scrapy项目，创建名为TXmovies的爬虫，并定义txms爬虫目标。接着修改settings文件，定义要提取的数据项，编写爬虫程序，并通过管道进行数据处理。最后执行Scrapy项目开始抓取网页数据。

摘要由CSDN通过智能技术生成

代码如下：

win+R 输入cmd 打开终端输入

cd desktop

scrapy startprojectTX movies

cd TXmovies

scrapy genspider txms v.qq.com

修改setting文件

ROBOTSTXT_OBEY=False
DOWNLOAD_DELAY=1
DEFAULT_REQUEST_HEADERS{
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language':'en',
'UserAgent':'Mozilla/5.0'
}
ITEM_PIPELINES={'TXmovies.pipelines.TxmoviesPipeline':300,}

确认要提取的数据，item项

import scrapy

class TxmoviesItem(scrapy.Item):
#definethefieldsforyouritemherelike:
#name=scrapy.Field()
name=scrapy.Field()
description=scrapy.Field()

写爬虫程序

import scrapy
from ..items import TxmoviesItem

class TxmsSpider(scrapy.Spider

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Baldy_qiang

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
用scapy获取网页信息

代码如下：win+R 输入cmd 打开终端输入cd desktopscrapy startprojectTX moviescd TXmoviesscrapy genspider txms v.qq.com修改setting文件ROBOTSTXT_OBEY=FalseDOWNLOAD_DELAY=1DEFAULT_REQUEST_HEADERS{'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9..
复制链接

扫一扫