爬虫
文章平均质量分 55
python学习网py.cn
这个作者很懒,什么都没留下…
展开
-
Python3爬虫利器:aiohttp的安装
python爬虫中,如果想要需要并发http请求,一般都是使用requests。但是requests 是同步的库,如果想异步的话需要引入 aiohttp。aiohttp是一个基于asyncio实现的HTTP框架,可是实现异步请求,本文介绍Python3爬虫利器aiohttp的安装过程。1、什么是aiohttp?asyncio可以实现单线程并发IO操作,是Python中常用的异步处理模块。aiohttp是一个基于asyncio实现的HTTP框架,它可以帮助我们异步地实现HTTP请求,从而使得我们的程序.转载 2021-02-06 20:01:53 · 701 阅读 · 1 评论 -
Python3爬虫如何模拟登录?
专业的术语,总是让我们听得云里雾里,但是总的来说,大家应该都知道爬虫的基本流程吧,首先是将自己进行伪装,跟一个正常的登录使用人员一样,但是最终,别人只是看一遍知识,而我们是需要进行知识的获取的,这也就学会爬虫第一步要知道的内容,好啦话不多说,大家来了解看下吧~先登录成功1次,获取到携带登陆信息的Cookie def get_html(self): print(html) self.parse_html(html) def parse_html(self,html)最终程序实现代码转载 2020-11-25 18:34:07 · 349 阅读 · 0 评论 -
python3爬虫中如何防止多线程出错?
最近的温度已经能感受到寒冬的冷意了,动物们的迁徙也早就完成。那么大家应该知道,为了防止迁徙途中走错路,动物的集体迁徙是有一个领头的,它会带领集体走向更温暖的地带,可能这点平时我们没怎么注意过。这种应用在多线程中也有体现,为了不让其他的线程出现混乱,都会有一个主线程进行控制,这就是领头的作用,接下来让我们看看主线程如何防止其它线程出错吧。python线程的事件用于主线程控制其他线程的执行,事件是一个简单的线程同步对象,其主要提供以下几个方法:clear 将flag设置为“False”set 将flag设转载 2020-11-25 18:31:22 · 323 阅读 · 0 评论 -
如何用python爬虫中的xpath抓取信息?
在学习了python爬虫模块后,小编对于获取数据的方法仿佛打开了新的思路。方法之间没有哪种可以不局限于所有的使用环境,小编在每次写的时候都会注明使用,小伙伴们看的时候需要留意,不然运行后弄出乌龙就尴尬了。下面我们一起来看看xpath是如何在python爬虫中抓取信息的吧。我们使用xpath语法来提取我们所需的信息。 不熟悉xpath语法的自行学习一下,很快就能上手,难度不高。 首先我们在chrome浏览器里进入豆瓣电影TOP250页面并按F12打开开发者工具。我们可以看到每一部电影的信息都在一个…里转载 2020-11-25 18:22:50 · 473 阅读 · 0 评论 -
python实战:如何用爬虫修改发布的招聘内容
都说知识之间是相互汇通和包容的,借着我们之前才讲过header的热乎劲,为大家带来新朋友request的同时,也不忘记再来跟我们的老朋友header见见面。说到这里已经有小伙伴开始好奇,request会定义headers呢?简单的来说就是request帮助header进行网页访问,接下来看看是如何进行的吧。对于写爬虫来讲,模拟浏览器是发请求的时候做的最多的事情了,最常见的模拟浏览器无非就是伪装headers:In [23]: url = 'http://xlzd.me' In [24]: he转载 2020-11-24 17:57:07 · 97 阅读 · 0 评论 -
Beautiful Soup对象在Python爬虫中创建方法有哪些?
除了之前讲的Urllib、Requests之外,python中获取数据的还有Beautiful Soup库。跟前两个库的作用差不多,对于网页的提取都有很好地效果。在使用上,小编只能说,一千个人心中有一千个哈姆雷特,大家可以根据自己的学习情况和喜好,自由的选择。毕竟适合自己的才是最好的。接下来我们就开始今天的学习吧~首先必须要导入 bs4 库from bs4 import BeautifulSoup我们创建一个字符串,后面的例子我们便会用它来演示html = """<html><转载 2020-11-23 16:05:27 · 264 阅读 · 0 评论 -
Requests如何在Python爬虫中实现post请求 ?
urllib库作为python基础的工具,想必大家已经学的差不多了。作为一个有理想,有抱负的小白当然要向python大神进阶。小编查询了一些资料,发现Requests库也是不错的选择。post请求和requests一起处理,有的小伙伴就觉得问题很棘手。在我们掌握了一些基础的爬取知识后,相信大家学习新的库也不会那么困难。接下来就让我们一起学习下吧。对于 POST 请求来说,我们一般需要为它增加一些参数。那么最基本的传参方法可以利用 data 这个参数。import requests payload转载 2020-11-18 13:54:13 · 843 阅读 · 0 评论 -
如何用Python爬虫获取段子?
生活或许是平淡的,但我们可以自己找一点乐子。有的小伙伴就很喜欢看一些搞笑的段子,生活在开心中度过。小编也喜欢这种有意思的内容,毕竟忙碌一天之后,看看能够放松一下。今天小编就为大家带来获取搞笑好玩段子的方法,一次性保存起来慢慢看,希望大家都能有一个愉快的心情。糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和 CPU 占用过高的情况,是因为正则表达式没有匹配到的缘故。 现在,博主已经对程序进行了重新修改,代码亲测可用。首先我们确定好页面的URL。初步构建如下的代码来打印页面代码内容试转载 2020-11-18 12:03:49 · 157 阅读 · 0 评论