爬虫
文章平均质量分 73
Python热爱者
这个作者很懒,什么都没留下…
展开
-
Python中selenium模块的三种等待方式
我们在做自动化时,经常听到小伙伴说,明明代码没问题,死活定位不到元素,一运行就报错啊。是因为有时候因为网络或其它原因导致我们需要定位的元素还没加载出来,我们代码就执行下一步操作了,这个时候就需要我们在某些场景下加等待时间。原创 2023-04-26 16:00:22 · 234 阅读 · 0 评论 -
Python教程:学习爬虫一定要了解session 和 cookies 的区别
一·概念理解首先呢,要了解session和cookie的区别先要了解以下几个概念:1、无状态的HTTP协议:协议,是指计算机通信网络中两台计算机之间进行通信所必须共同遵守的规定或规则,超文本传输协议(HTTP)是一种通信协议,它允许将超文本标记语言(HTML)文档从Web服务器传送到客户端的浏览器。HTTP协议是无状态的协议。一旦数据交换完毕,客户端与服务器端的连接就会关闭,再次交换数据需要建立新的连接。这就意味着服务器无法从连接上跟踪会话。2、会话(Session)跟踪:会话,指用户登录网站原创 2022-05-10 16:25:37 · 502 阅读 · 0 评论 -
Python基础教程:网络请求模块 urllib和requests
Python 给人的印象是抓取网页非常方便,提供这种生产力的,主要依靠的就是 urllib、requests这两个模块。urlib 介绍urllib.request 提供了一个 urlopen 函数,来实现获取页面。支持不同的协议、基本验证、cookie、代理等特性。urllib 有两个版本 urllib 以及 urllib2。urllib2 能够接受 Request 对象,urllib 则只能接受 url。urllib 提供了 urlencode 函数来对GET请求的参数进行转码,urllib原创 2022-02-17 16:34:22 · 564 阅读 · 0 评论 -
Json和XML之间的对比
一.可读性JSON和XML的可读性可谓不相上下,一边是简易的语法,一边是规范的标签形式,很难分出胜负。二.可扩展性XML天生有很好的扩展性,JSON当然也有,没有什么是XML可以扩展而JSON却不能扩展的。不过JSON在Javascript主场作战,可以存储Javascript复合对象,有着xml不可比拟的优势。三.编码难度XML有丰富的编码工具,比如Dom4j、JDom等,JSON也有提供的工具。无工具的情况下,相信熟练的开发人员一样能很快的写出想要的xml文档和JSON字符串,不过,xml文档原创 2021-12-17 15:34:41 · 1326 阅读 · 0 评论 -
python教程:使用生成器重构提取数据方法来优化爬虫代码
前言在刚开始学习python的时候,有看到过迭代器和生成器的相关内容,不过当时并未深入了解,更谈不上使用了前两天在网上冲浪时,又看到了几篇关于生成器的文章,想到之前写的爬虫代码,其实是可以用生成器来改造一下的,所以本次就使用生成器来优化一下爬虫代码我们可以了解到:生成器函数与普通函数的区别是,生成器用关键字 yield 来返回值,而普通函数用 return 一次性返回值;当你调用生成器函数的时候,函数内部的代码并不立马执行 ,这个函数只是返回一个生成器对象;一般使用for循环迭代生成器对象来获原创 2021-12-08 20:47:49 · 407 阅读 · 0 评论