网络爬虫
文章平均质量分 85
py_tester
这个作者很懒,什么都没留下…
展开
-
测试之道--网络爬虫系列1
网络爬虫简介 网络爬虫又称网络蜘蛛、蚂蚁、机器人等,可以按照我们事先制定的规则(爬虫算法)自动化检索互联网信息的一种技术。 网络爬虫分类 通用网络爬虫:又名全网爬虫,将主题定位在全网中,做搜索引擎,感兴趣的是互联网中尽可能多的高质量网页,如Baiduspider、360Spider、SogouSpider、Bingbot等。聚焦网络爬虫:又名主题网络爬虫,只将目标网页定位到与主题相关的页面中有目原创 2017-10-10 16:24:59 · 611 阅读 · 0 评论 -
测试之道--网络爬虫系列2(爬虫技术及原理)
通用网络爬虫原理 1)获取初始的URL:可以用户人为指定一个或者多个URL 2)根据初始的URL爬取页面并获得新的URL:首先爬取初始URL网页,将网页存储到原始数据库的同时获取网页中的新的URL地址,将新的URL存放到待爬取URL列表中,并将已经爬取的URL放到已爬取URL列表中,目的是用于去重及判断爬取的进程。 3)重复步骤2直至满足爬虫系统设置的停止条件时,停止爬取。 聚焦网络爬虫原理原创 2017-10-10 18:11:45 · 1428 阅读 · 0 评论 -
测试之道--网络爬虫系列3(urllib库介绍)
urllib库简介 urllib是python3.x中用于操作URL的一个模块(库),合并了python2.x中的urllib、urllib2库。 快速爬取网页 import urllib.request as url_req with url_req.urlopen(“http://www.baidu.com“) as file: 下面要读取网页内容 法一(一行一行读):原创 2017-10-11 01:53:42 · 481 阅读 · 0 评论 -
测试之道--网络爬虫系列4(http协议请求实战)
简单介绍下http请求的六种主要类型 1)GET请求:通过url网址传递信息,可直接在url中填写要传递的信息,也可以由表单进行传递(此时表单中的信息会自动转化为url地址中的数据,通过url传递)。 2)POST请求:可以向服务器提交数据,是一种比较主流且安全的数据传递方式,在登录时经常使用这种方式请求发送数据。 3)PUT请求:请求服务器存储一个资源,通常要指定存储的位置。 4)DELE原创 2017-10-12 00:37:58 · 716 阅读 · 0 评论 -
测试之道--网络爬虫系列5(cookie处理)
什么是cookie 在爬虫的使用中,如果涉及到登录等操作经常会用到cookie,简单地说,我们访问的每一个互联网页面,都是通过http协议运行的,而http协议是一个无状态的协议:无法保存、维持会话之间的状态,如使用http成功登录一个网站,但是当我们访问该网站其他网页的时候,该登录状态会消失,此时还需要重新再登录一次,只要涉及到页面的更新都需要重新登录,这很不方便,所以我们就需要保存登录信息:c原创 2017-11-19 21:45:24 · 303 阅读 · 0 评论