图虫网、人人字幕Scrapy爬虫实战分享
文章已发表在个人博客,欢迎点击这里访问
序
最近用Scrapy爬取了图虫和人人字幕,图虫网以前是纯摄影爱好论坛,现在往图库方向发展了,图片质量上佳,人人字幕也是老牌翻译团队了,这次爬取的影视作品对白可以在后面做为NLP情感分析、聊天训练等工作的语料包。
由于爬取数据量较大、网页结构没有很大的纵深,故为了提高爬取效率此次实战没有用到selenium模拟这一方法,采用直接抓取JS实际请求地址的人肉法。
附上源码GitHub
更多详情请翻阅个人博客
图虫网、人人字幕Scrapy爬虫实战分享
文章已发表在个人博客,欢迎点击这里访问
序
最近用Scrapy爬取了图虫和人人字幕,图虫网以前是纯摄影爱好论坛,现在往图库方向发展了,图片质量上佳,人人字幕也是老牌翻译团队了,这次爬取的影视作品对白可以在后面做为NLP情感分析、聊天训练等工作的语料包。
由于爬取数据量较大、网页结构没有很大的纵深,故为了提高爬取效率此次实战没有用到selenium模拟这一方法,采用直接抓取JS实际请求地址的人肉法。
附上源码GitHub
更多详情请翻阅个人博客