![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
scrapy
ljsbuct
程序猿 android PHP python django
展开
-
tudou,youku m3u8文件抓取地址
目前煎蛋能支持 iOS 设备播放优酷视频,因为优酷的html5格式比较有规律,比如视频页面地址是 http://v.youku.com/v_show/id_xxxx.html,那么 .m3u8 文件地址是 http://v.youku.com/player/getRealM3U8/vid/xxxx/type/mp4/v.m3u8,很好匹配。但是作为两大视频巨头的土豆,貌似不能直接转载 2012-09-11 17:12:59 · 12050 阅读 · 0 评论 -
ubuntu安装scrapy
1. curl -s http://archive.scrapy.org/ubuntu/archive.key | sudo apt-key add - 2.修改source.listsudo vim /etc/apt/sources.list根据ubuntu的版本不同,添加不同的源:For Ubuntu Precise (12.04):原创 2012-01-12 13:40:06 · 2672 阅读 · 0 评论 -
scrapy结合webkit抓取js生成的页面
这篇文章写的太笼统,没能按照上面的实现功能。因为我爬取的网站,播放url直接在js代码中用变量定义,所以我抓取到script标签,通过文本解析,得到对应的url变量。link:http://www.cnblogs.com/Safe3/archive/2011/10/19/2217965.html1 scedulescrapy 作为抓取框架,包括了spider转载 2012-12-17 09:09:40 · 8134 阅读 · 3 评论 -
关于scrapy+mongodb的一些体会
1.mongodb的无模式(模式自由)与scrapy的Item有一些冲突。mongodb的无模式,允许每一个doc的key可以任意增加或者修改,但是scrapy的item中,必须定义每一个field。所以为了不同的网站抓取,可能有不同的字段数据和类型,这样scrapy的item定义,就会很庞大,会有很多冗余。2.scrapy 加载item的方式item loader有很原创 2012-12-17 10:37:59 · 3817 阅读 · 0 评论