图虫网、人人字幕Scrapy爬虫实战分享 附源码

图虫网、人人字幕Scrapy爬虫实战分享
文章已发表在个人博客,欢迎点击这里访问


最近用Scrapy爬取了图虫和人人字幕,图虫网以前是纯摄影爱好论坛,现在往图库方向发展了,图片质量上佳,人人字幕也是老牌翻译团队了,这次爬取的影视作品对白可以在后面做为NLP情感分析、聊天训练等工作的语料包。

由于爬取数据量较大、网页结构没有很大的纵深,故为了提高爬取效率此次实战没有用到selenium模拟这一方法,采用直接抓取JS实际请求地址的人肉法。

附上源码GitHub
更多详情请翻阅个人博客

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值