python爬虫
文章平均质量分 89
爬行者的学习
老秦包你会
一个爱分享的小码农
展开
-
python多线程------>这个玩意很哇塞,你不来看看吗
当小可爱们运行就会发现,开启了五个线程的运行结果不对,原因是啥,就是我们每一个线程运行都会从头到尾运行一遍,每次创建线程都会重新传参,每个线程互不干预,就好像我们每次买商品,我们一卖完,商家就补上商品, t1=threading.Thread(target=main,args=(urls,))就是这样的原理,要么我们设计一个运行完就去掉一个,要么我们一次性运行完,总的来说,线程就是为了使时间的利用率大大提高,电脑运行的效率提高,爬取太多的东西,没有线程会运行很慢,原创 2023-06-01 14:26:05 · 2952 阅读 · 31 评论 -
python的scrapy框架----->可以使我们更加强大,为打破写许多代码而生
scrapy框架scrapy模拟登录scrapy下载图片下载中间件scrapy框架含义:构图:运行流程:1.scrapy框架拿到start_urls构造了一个request请求2.request请求发送给scrapy引擎,中途路过爬虫中间件,引擎再发送request给调度器(一个队列存储request请求)3.调度器再把requst请求发送给引擎4.引擎再把requst请求发送给下载器,中途经过下载中间件5.下载器然后访问互联网然后返回response响应。原创 2023-06-04 22:10:15 · 4014 阅读 · 85 评论 -
re模块----你也可以玩得很溜正则表达式
以上的方法都是为了更好的匹配字符串,灵活性高,操作性强。原创 2023-05-26 18:26:55 · 2788 阅读 · 10 评论 -
python---js逆向-----为了理想爬到想要的数据,我们怎能放过它
这是我的gitee仓库:https://gitee.com/qin-laoda/python-exercises有兴趣的小可爱们可以点进去看看,_________________________________下面我们来按照爬虫思路找一下我们要爬的网页,并获取数据下面我以https://ggzyfw.fujian.gov.cn/business/list/来爬取想要的数据首先我们进去找到该网页,打开开发者工具找到如下所示:图中我们没有搜索到想要的内容,那我们就查看源代码看看,如图:可以看出也没有找到我们想要原创 2023-06-08 16:45:02 · 5692 阅读 · 90 评论 -
滑块验证码------啥?你居然还在手动滑动,你不来试试自动滑动吗
里面有我写的代码。原创 2023-06-10 08:44:03 · 5065 阅读 · 60 评论 -
python---------xpath提取数据------打破局限
这里我简单的介绍了xpath的使用和语法,小可爱有哪些不明白的可以私聊了。原创 2023-06-17 15:29:01 · 5187 阅读 · 31 评论 -
python多线程----------主线程,子线程,任务讲解----拿下就是胜利
这一篇博客主要介绍给分不清楚主线程.子线程的小可爱们在之前的一篇博客中我简单的介绍了并发,并行并发:是在时段的完成多个任务 ,但是每个时间点只有一个任务运行而多线程就是这一个原理。原创 2023-06-20 11:08:04 · 4681 阅读 · 171 评论 -
python---js逆向------再接再励------案例
作者前言这是我的gitee仓库:https://gitee.com/qin-laoda/python-exercises有兴趣的小可爱们可以点进去看看,目录常见的js加密算法微信公众号的简单案例________________________________鉴于有一些小可爱对于js逆向的理解还有一些不解,下面我会再进一步的介绍js逆向,常见的加密算法1.线性散列的MD5算法2.对称加密DES/AES算法3.非对称加密算法RSA4.base64伪加密5.h原创 2023-06-23 21:52:55 · 4547 阅读 · 166 评论 -
selenium⼊⻔到放弃-------->学会了就是玩,能玩出花来
俗话说得好,有阴必要阳,,那么有爬虫就会有反爬,作为其中的一员我们要明白,这条道路一旦上路就会加入其中一方,后面我们会不断遇见各种情况,但我们都会慢慢克服过去有一些小可爱可能觉得就爬的次数和网站的容纳数比例很小,就使劲爬呀爬,突然发现,自己被制裁了,送你几个字:你完了,等着换网站爬,所以我们又想爬又怕被封,我的建议有以下几点:对症下药能很快治疗,所有我们要想破解这个就要对症下药,深入源点了解一下,重要时可以补一刀下面会慢慢介绍小结:第一种方法找ajax文件太麻烦,不建议,下面还有一些情况:下面我将来一一介绍原创 2023-05-29 09:39:40 · 3127 阅读 · 3 评论 -
python---------bs4爬取数据的一种神器
欢迎小可爱们前来借鉴我的gtieehttps://gitee.com/qin-laodaBeautiful Soup是python的⼀个库,最主要的功能是从⽹⻚抓取数据,BeautifulSoup安装 pip install bs4 如图: 我们来看看三种数据提取的方法 本人建议还是使用xpath获取数据是比较好的,使用简单,本次介绍只是让各位知道方法有很多种,找到适合自己的就行下面我提供一个网址里面有Beautiful Soup库的多种使用方向,而我们使用bs4就是要使用其中的搜索⽂档树 如图: 上面只是原创 2023-06-17 11:27:17 · 4095 阅读 · 31 评论 -
requests模块----这是一个强硬的手段,有多强呢?看看你就知道了
requests的作⽤发送简单的get请求发送带header的请求发送POST请求cookies参数的使⽤cookie和session区别使⽤代理设置请求超时时间请求SSL证书开始了requests模块简单介绍1.requests模块作为爬⾍中最常⽤的⼀个模块,一个让爬虫小白能快速接受的模块,可能之前看过⼀些教程的⼩可爱在想,为什么不是从urllib开始,⽽是从requests模块开始,原因有以下⼏点●1.requests的底层实现就是urllib●。原创 2023-05-27 13:10:52 · 2856 阅读 · 11 评论