沐籽丶-CSDN博客

原创爬虫提高（一）自动化测试工具selenium

什么是seleniumSelenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，Selenium 可以直接运行在浏览器上，它支持所有主流的浏览器（包括PhantomJS这些无界面的浏览器），可以接收指令，让浏览器自动加载页面，获取需要的数据，甚至页面截屏PhantomJS的介绍 PhantomJS 是一个基于Webkit的“无界面”(headless)浏览器，它会把网...

2018-08-14 15:59:47 612

原创爬虫入门（十）线程池and协程池爬虫

线程池使用方法介绍1.实例化线程池对象 from multiprocessing.dummy import Pool pool = Pool(process=5) #默认大小是cup的个数2.把从发送请求，提取数据，到保存合并成一个函数，交给线程池异步执行，使用方法pool.apply_async(func) def exetute_requests_item_save(...

2018-08-12 21:27:17 529

原创爬虫入门（九）多线程and多进程爬虫

1. 爬取糗事百科段子# coding=utf-8import requestsfrom lxml import etreeimport timeclass QiuBai: def __init__(self): self.temp_url = "http://www.qiushibaike.com/8hr/page/{}" self.he...

2018-08-12 21:17:27 319

原创爬虫入门（八）数据提取之lxml

安装方式：pip install lxmllxml模块的入门使用1.导入lxml 的 etree 库 (导入没有提示不代表不能用)from lxml import etree2.利用etree.HTML，将字符串转化为Element对象,Element对象具有xpath的方法,返回结果的列表，能够接受bytes类型的数据和str类型的数据html = etree.H...

2018-08-12 21:08:53 993

原创爬虫入门（七）数据提取之xpath

什么是xpath?XPath (XML Path Language) 是一门在 HTML\XML 文档中查找信息的语言，可用来在 HTML\XML 文档中对元素和属性进行遍历。html和xml的区别?xml的树结构<bookstore><book category="COOKING"> <title lang="en">Everyd...

2018-08-12 20:57:49 727

原创爬虫入门（六）数据提取之json

什么是json？JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式，它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景，比如网站前台与后台之间的数据交互。json有四个方法供我们进行数据转换:mydict = {'name': 'xiaoming', 'age': 18}#json.dumps ...

2018-08-11 12:16:41 12596

原创爬虫入门（五）处理cookie相关的请求

爬虫中使用cookie：为了能够通过爬虫获取到登录后的页面，或者是解决通过cookie的反扒，需要使用request来处理cookie相关的请求爬虫中使用cookie的利弊：带上cookie的坏处: 能够访问登录后的页面能够实现部分反反爬带上cookie的坏处: 一套cookie往往对应的是一个用户的信息，请求太频繁有更大的可能性被对方识别为爬虫 requests...

2018-08-11 12:01:46 914

原创爬虫入门（四）requests模块的深入使用

哪些地方我们会用到POST请求？登录注册（ POST 比 GET 更安全）需要传输大文本内容的时候（ POST 请求对数据长度没有要求）requests发送post请求语法：response = requests.post("http://www.baidu.com/", data = data,headers=headers)data 的形式：字典使用代理：为什么...

2018-08-10 21:31:31 306

原创爬虫入门（三）requests模块的入门使用

为什么要重点学习requests模块，而不是urllib - requests的底层实现就是urllib - requests在python2 和python3中通用，方法完全一样 - requests简单易用 - Requests能够自动帮助我们解压(gzip压缩的等)网页内容## requests模块发送简单的get请求并获取响应# 需求: 通过requests向百度首页发送...

2018-08-10 21:17:43 374

原创爬虫入门（二）编写第一个爬虫小程序

第一个爬虫小程序要求：从网上爬取一张图片保存到本地的上import requestsimport osurl = "http://p1.so.qhimgs1.com/bdr/200_200_/t01838143cb2c95c22d.jpg"root = "/home/python/Desktop/"path = root + url.split("/")[-1]try: ...

2018-08-10 20:57:26 2737 4

原创爬虫入门（一）爬虫的基本知识

什么时爬虫？网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟浏览器发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序. 原则上来说,只要是浏览器(客户端)能做的事情，爬虫都能够做.*爬虫的分类与流程根据被爬网站的数量的不同，我们把爬虫分为：通用爬虫：通常指搜索引擎的爬虫聚焦爬虫：针对特定网站的爬虫爬虫的流程搜索引擎的局限性通...

2018-08-10 20:42:06 3603 3

qq_27200969的博客