python爬取并下载麦子学院所有视频教程

莫路芳

于 2016-03-24 19:46:39 发布

阅读量9.8k

点赞数 1

分类专栏： html5 文章标签：产品

html5 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

原文 http://www.cnblogs.com/yinsolence/p/5140297.html

主题 Python

一、主要思路

scrapy爬取是有课程地址及名称
使用multiprocessing进行下载
就是为了爬点视频，所以是简单的代码堆砌
想而未实行，进行共享的方式

二、文件说明

itemsscray字段
piplines.py存储数据库
setting.py scrapy配置需要注意的是 DEFAULT_REQUEST_HEADERS的设置，需要模拟登录
mz.py是主要爬虫都是基本的爬虫功能，css+xpath+正则
start_urls = [ "http://www.maiziedu.com/course/web/" , ]只爬了web的，可根据需要进行，或者全部，
本想不存储进数据库，直接在mz.py进行下载，但考虑到位会影响scrapy原有的性能，单独进行下载

down.py 使用multiprocessing进行下载原本想着动态监听scrapy在数据库的中的结果，想实现进程的共享，调试多次还出现问题所以直接用Pool.Map（）这种比较粗暴的方式，
mz.json现存取进json，但考虑到来回操作json文件，影响效率，所以改用数据库

三、结果

源码 :https://yunpan.cn/crjn7J97xUD8F 访问密码 6219
视频地址： https://yunpan.cn/crjXKLGnkpzPk 访问密码 6c15

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。