Scrapy
Corleone Yao
言寡 体勤 心静
展开
-
scrapy爬取某视频网站的部分视频信息
此次爬取的信息有: 1、视频名称 2、在线观看人数 3、弹幕内容 4、弹幕发送时间 5、弹幕在视频中的位置 6、点赞 7、收藏 8、投币数 由于b站的很多信息是动态加载的。所以部分信息,需要自己抓包,进入对应的网址抽取信息。例如在线观看视频人数 ...原创 2020-02-09 18:52:30 · 735 阅读 · 0 评论 -
Scrapy爬取内容的入库操作(mongodb数据库)
电脑先预装MongoDB和数据库可视化软件robo3t,python下载pymongo库 预先启动数据库 可以自己写一个小脚本文件方便启动 内容:E:\mongodb_64\bin\mongod.exe --dbpath E:\mongodb_64\data\db 出现了等待连接的 27017端口时,说明启动成功 打开可视化软件 robo3t 并连接数据库 打开自己的pyc...原创 2020-02-05 11:51:32 · 359 阅读 · 0 评论 -
Scrapy的中间件Downloader Middleware实现User-Agent随机切换
爬虫的本质就是“抓取”第二方网站中有价值的数据,因此,每个网站都会或多或少地采用一些反爬虫技术来防范爬虫。比如通过 User-Agent 请求头验证是否为浏览器原创 2020-02-05 11:16:58 · 160 阅读 · 0 评论 -
Scrapy 框架介绍及入门
1. Scrapy 框架介绍 Scrapy是Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy = Scrach+Python Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试、信息处理和历史档案等大量应用范围内抽取结构化数据的应用程序框架,广泛用于工业 Scrapy 使用Twisted 这个异步网络库来处...原创 2020-01-10 19:35:09 · 349 阅读 · 0 评论