自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 爬虫提高(一)自动化测试工具selenium

什么是seleniumSelenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器),可以接收指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏PhantomJS的介绍 PhantomJS 是一个基于Webkit的“无界面”(headless)浏览器,它会把网...

2018-08-14 15:59:47 612

原创 爬虫入门(十)线程池and协程池爬虫

线程池使用方法介绍1.实例化线程池对象 from multiprocessing.dummy import Pool pool = Pool(process=5) #默认大小是cup的个数2.把从发送请求,提取数据,到保存合并成一个函数,交给线程池异步执行,使用方法pool.apply_async(func) def exetute_requests_item_save(...

2018-08-12 21:27:17 529

原创 爬虫入门(九)多线程and多进程爬虫

1. 爬取糗事百科段子# coding=utf-8import requestsfrom lxml import etreeimport timeclass QiuBai: def __init__(self): self.temp_url = "http://www.qiushibaike.com/8hr/page/{}" self.he...

2018-08-12 21:17:27 319

原创 爬虫入门(八)数据提取之lxml

安装方式:pip install lxmllxml模块的入门使用1.导入lxml 的 etree 库 (导入没有提示不代表不能用)from lxml import etree2.利用etree.HTML,将字符串转化为Element对象,Element对象具有xpath的方法,返回结果的列表,能够接受bytes类型的数据和str类型的数据html = etree.H...

2018-08-12 21:08:53 993

原创 爬虫入门(七)数据提取之xpath

什么是xpath?XPath (XML Path Language) 是一门在 HTML\XML 文档中查找信息的语言,可用来在 HTML\XML 文档中对元素和属性进行遍历。html和xml的区别?xml的树结构<bookstore><book category="COOKING"> <title lang="en">Everyd...

2018-08-12 20:57:49 727

原创 爬虫入门(六)数据提取之json

什么是json?JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据交互。json有四个方法供我们进行数据转换:mydict = {'name': 'xiaoming', 'age': 18}#json.dumps ...

2018-08-11 12:16:41 12596

原创 爬虫入门(五)处理cookie相关的请求

爬虫中使用cookie: 为了能够通过爬虫获取到登录后的页面,或者是解决通过cookie的反扒,需要使用request来处理cookie相关的请求爬虫中使用cookie的利弊: 带上cookie的坏处: 能够访问登录后的页面 能够实现部分反反爬带上cookie的坏处: 一套cookie往往对应的是一个用户的信息,请求太频繁有更大的可能性被对方识别为爬虫 requests...

2018-08-11 12:01:46 914

原创 爬虫入门(四)requests模块的深入使用

哪些地方我们会用到POST请求? 登录注册( POST 比 GET 更安全) 需要传输大文本内容的时候( POST 请求对数据长度没有要求)requests发送post请求语法:response = requests.post("http://www.baidu.com/", data = data,headers=headers)data 的形式:字典使用代理: 为什么...

2018-08-10 21:31:31 306

原创 爬虫入门(三)requests模块的入门使用

为什么要重点学习requests模块,而不是urllib - requests的底层实现就是urllib - requests在python2 和python3中通用,方法完全一样 - requests简单易用 - Requests能够自动帮助我们解压(gzip压缩的等)网页内容## requests模块发送简单的get请求并获取响应# 需求: 通过requests向百度首页发送...

2018-08-10 21:17:43 374

原创 爬虫入门(二)编写第一个爬虫小程序

第一个爬虫小程序要求:从网上爬取一张图片保存到本地的上import requestsimport osurl = "http://p1.so.qhimgs1.com/bdr/200_200_/t01838143cb2c95c22d.jpg"root = "/home/python/Desktop/"path = root + url.split("/")[-1]try: ...

2018-08-10 20:57:26 2737 4

原创 爬虫入门(一)爬虫的基本知识

什么时爬虫?网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟浏览器发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序. 原则上来说,只要是浏览器(客户端)能做的事情,爬虫都能够做.*爬虫的分类与流程根据被爬网站的数量的不同,我们把爬虫分为: 通用爬虫 :通常指搜索引擎的爬虫聚焦爬虫 :针对特定网站的爬虫爬虫的流程 搜索引擎的局限性通...

2018-08-10 20:42:06 3603 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除