python爬虫基础
文章平均质量分 77
编程小僧
这个作者很懒,什么都没留下…
展开
-
scrapy爬虫入门--爬取《糗事百科》内容(上):基础知识篇
爬取《糗事百科》-基础知识篇《scrapy简介》1、scrapy python的爬虫框架,非常出名,我们此处学用法,实现功能即可。有兴趣可以下载源码、理解,底层使用了多进程、多线程、队列等技术。 2、安装:pip installscrapy如果出错:building 'twisted.test.raiser' extensionerror: Microsoft Visual C++ 14.0 is...原创 2018-06-06 17:50:42 · 547 阅读 · 0 评论 -
scrapy爬虫入门-爬取《糗事百科》内容(下):源码解析
通过scrapy来爬取糗事百科 DOWNLOAD_DELAY= 3 下载延迟 ITEM_PIPELINES= { #使用哪一个管道,后面的数字是优先级 'doublekill.pipelines.DoublekillPipeli...原创 2018-06-06 18:04:06 · 208 阅读 · 0 评论 -
scrapy爬虫入门:爬取《id97》电影
id97下电影我们本次要爬取的网站:http://www.id97.com/movie1、打开终端:scrapy startproject movieprject2、scrapy genspider movie形成的目录结构如下:3、setting里面设置第19行:USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/...原创 2018-06-07 21:13:12 · 62967 阅读 · 0 评论 -
爬虫入门(一):http协议、fiddler 4、urllib
1、爬虫概念 什么是爬虫? 程序猿:写程序,然后去互联网上抓取数据的过程 互联网:网,有好多的a链接组成的,网的节点就是每一个a链接 url(统一资源定位符) 哪些语言可以实现爬虫? (1)php,可以做,号称世界上最优美的语言,多进程、多线程支持的不好 (2)java,也可以做爬虫,人家做的很好,最主要的竞争对手,代码臃肿,重构成本大 (3)c、c++,是你能力的体现,不是良好的选...原创 2018-07-13 09:05:26 · 341 阅读 · 0 评论