python scrapy爬虫

Pythonwke

已于 2023-12-08 22:15:30 修改

阅读量989

点赞数 10

文章标签： scrapy

于 2023-12-08 22:14:47 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_46780416/article/details/134888014

版权

#scrapy的基本使用，网址：https://movie.douban.com/top250

#创建爬虫项目douban
scrapy startproject douban 
#切换路径
cd douban
#创建爬虫名称db
scrapy genspider db https://movie.douban.com/top250

##scrapy自动生成的代码，部分需修改。
#db.py

#导入需要的模块
import scrapy
from ..items import DoubanItem

class DbSpider(scrapy.Spider):
    name = "db"
    #需要爬取的域名
    allowed_domains = ["movie.douban.com"]
    #爬取4页内容，第一页为0，第二页为25，以此类推50，75，100
    start_urls = [f"https://movie.douban.com/top250?start={i}&filter=" for i in range(0,101,25)]
	#response为请求得到的内容
    def parse(self, response):
    	#导入itenm
        douban=DoubanItem()
        #这里数据解析用xpath
        for i in response.xpath('//ol[@class="grid_view"]/li'):
            print(i.xpath('./div/div[2]/div/a/span/text()').extract_first())

#接下来设置配置请求参数
#settings.py

BOT_NAME = "douban"
SPIDER_MODULES = ["douban.spiders"]
NEWSPIDER_MODULE = "douban.spiders"
USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36 Edg/119.0.0.0"
ROBOTSTXT_OBEY = False
REQUEST_FINGERPRINTER_IMPLEMENTATION = "2.7"
TWISTED_REACTOR = "twisted.internet.asyncioreactor.AsyncioSelectorReactor"
FEED_EXPORT_ENCODING = "utf-8"

关注

10
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Pythonwke CSDN认证博客专家 CSDN认证企业博客

码龄5年

14: 原创

142万+: 周排名

11万+: 总排名

3060: 访问

: 等级

191: 积分

15: 粉丝

36: 获赞

5: 评论

12: 收藏

私信

关注

热门文章

分类专栏

python网络编程 1篇

最新评论

数据库port scan
CSDN-Ada助手: 推荐 MySQL入门技能树：https://edu.csdn.net/skill/mysql?utm_source=AI_act_mysql
python爆破SSH端口弱口令
普通网友: 写的很好！我也写了一篇获取【大厂面试真题解析、核心开发学习笔记、最新全套讲解视频、实战项目源码讲义、学习路线简历模板】的文章
用python selenium模拟短信发送
CSDN-Ada助手: 恭喜您在博客领域的持续创作！这篇关于用python selenium模拟短信发送的主题很有趣，展示了您对技术的深刻理解和热情。希望您能继续保持创作的激情，不断挑战自我，拓展更多有趣的主题。或许在下一篇博客中，可以分享一些关于如何利用python selenium进行网页自动化测试的经验，让更多人受益。期待您的下一篇精彩文章！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
python爆破SSH端口弱口令
CSDN-Ada助手: 恭喜你写了第5篇博客！看来你对python爆破SSH端口弱口令有深入的了解啊。希望你能继续保持创作的热情，分享更多有趣的内容。下一步，也许可以探讨一下如何防范SSH端口弱口令攻击，或者分享其他网络安全相关的知识，让读者受益更多。加油！
python扫描文件IP端口探测
CSDN-Ada助手: 恭喜您写了这么有趣的一篇博客！对于Python扫描文件IP端口探测这个主题，您的解析非常深入，让人受益匪浅。希望您能继续保持写作的热情，可以考虑分享一些实际案例或者更多的技术细节，让读者更好地理解和运用这方面的知识。期待您的下一篇作品！祝您写作顺利，越来越有成就感！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。