爬虫-python
helloworldsv
sa
展开
-
爬虫入门二(urllib,urllib2)
看了下网上的概念,比较模糊不知道作用。利用例子总结了一下。1.爬虫网站有各种数据,获得自己感兴趣的数据并保存的一种脚本。2.通信基础1.post和get:(1)get是从服务器上获取数据,post是向服务器传送数据。 (2) 在客户端,Get方式在通过URL提交数据,数据在URL中可以看到;POST方式,数据包装后提交。 (3) GET方式提交的数据最多只能有1024字节,而POST则没原创 2017-09-08 13:39:15 · 369 阅读 · 0 评论 -
爬虫入门三(获取各国网址,三种网页抓取方法,下载缓存)
对《用Python写网络爬虫》进行了总结归纳。1.爬相关地址#coding=utf-8import robotparserimport urlparseimport urllib2import urllibimport reimport datetimeimport timeimport Queue#初始化robotparserdef get_robots(url):原创 2017-09-09 22:38:42 · 2621 阅读 · 0 评论 -
爬虫入门五(Phantomjs和selenium)
1.Phantomjs1.简介:PhantomJS是一个无界面的,可脚本编程的WebKit浏览器引擎。它原生支持多种web 标准:DOM 操作,CSS选择器,JSON,Canvas 以及SVG。2.必须掌握的操作:官方文档:http://phantomjs.org/quick-start.htmlconsole.log('输出');#显示phantom.quit();#停止#页面加载并下载这个图原创 2017-09-12 15:36:29 · 426 阅读 · 0 评论 -
爬虫入门四(多线程爬虫)
1.单线程实现网页下载#coding=utf-8import datetimeimport csvfrom day3 import link_crawler #略有改动。same_domain修改一下。html编码改一下。from mongoDB import MongoCache#前面实现的def getUrl(number): urls=[] path='D:/top-原创 2017-09-10 16:32:08 · 346 阅读 · 0 评论