Python爬虫
文章平均质量分 91
爬虫的一些实战及知识分享。 ------作者:sun
Dream丶Killer
学如逆水行舟,不进则退;心似平原走马,易放难收。
展开
-
爬虫福音:Github星标14K+,一个开源的IP代理池
大家好,我是丁小杰!时间过得真快,一眨眼就到了元宵节,大家记得吃元宵哦~为什么要使用代理?不知道大家在写爬虫时是否遇到过这样的情况,测试时爬虫可以正常工作,但运行一段时间,就会发现报错或是没有数据返回,网页可能会提示“IP访问频繁”。这就说明网站对IP方面是有反爬措施的(IP一定时间内的请求次数及速度)。如果超过了某个阈值,就会直接拒绝服务,也就是经常说的“封IP”。这种情况下,就到了代理IP出场了。代理实际就是代理服务器,它的工作原理其实很简单,在我们正常请求一个网站时,是直接发送请求给Web服务原创 2022-02-15 20:13:29 · 2679 阅读 · 0 评论 -
4K壁纸批量采集,张张精品,全程自动化
今天给大家分享一个实用的爬虫项目,批量采集4K壁纸,从此壁纸不愁,张张精品。记得点赞收藏哦,话不多说,盘它!(偷笑)先上地址:https://pic.netbian.com/该网站下载图片是需要登录的,因此 cookie 的获取是我们面临的第一个问题。获取cookie我们使用 selenium 自动获取 cookie 。先导入所需要的模块。from selenium import webdriverfrom time import sleepfrom selenium.webdriver.c原创 2021-12-31 15:17:50 · 3104 阅读 · 13 评论 -
2021中国胡润百富榜揭晓:中国首富竟是他......
2021中国胡润百富榜前几天看到一个有意思的榜单“中国胡润百富榜单”,今年是胡润研究院自1999年以来连续第23次发布“胡润百富榜”,上榜门槛连续第九年保持20亿元。今天带大家分析看看中国都有哪些大牛!数据采集数据来源:https://www.hurun.net/zh-CN/Rank/HsRankDetails?pagetype=rich打开页面如下我们需要采集前 2000 名榜单人员的基本信息,分析过程十分简单:F12 打开开发者工具。CTRL + R 刷新页面,就可以看到抓到的数据包。h原创 2021-12-09 14:00:55 · 2441 阅读 · 2 评论 -
EDG夺冠,Python分析一波B站评论,总结:EDG,nb
前言2012,一个卡牌,一个雷恩加尔,一群红衣少年的欢声笑语。2013,一个杰斯,一个扎克,一场支离破碎的梦境。2014,一个螳螂,一个兰博,一座摇摇欲坠的基地。2015,一个寡妇,一个妖姬,一本永远叠不上去的梅贾窃魂卷。2016,一个盲僧,一个奥拉夫,一串耻辱的数字。2017,一个克格莫,一个青钢影,一个赛区绝境中最后的救赎。2018,一个刀妹,一个剑魔,一个至高无上的尊严。2019,一个泰坦,一个盲僧,一个浴火重生的凤凰。2020,一个船长,一个剑姬,一个杀戮无法弥补的遗憾。2021原创 2021-11-09 19:49:12 · 7234 阅读 · 13 评论 -
【Python多线程】守护线程 & 阻塞线程
文章目录守护线程守护线程的继承性join()阻塞系列精选Python爬虫速度很慢?并发编程了解一下吧守护线程在 Python 多线程中,主线程的代码运行完后,如果还有其他子线程还未执行完毕,那么主线程会等待子线程执行完毕后再结束;这就会有产生一个问题,如果有一个线程被设置成无限循环,那么意味着整个主线程( Python 程序)就不能结束。举个例子看一下。import threadingimport time# 非守护线程def normal_thread(): for i i原创 2021-11-03 10:21:48 · 4297 阅读 · 5 评论 -
Python爬虫速度很慢?并发编程了解一下吧
文章目录前言基础知识GIL多线程创建Thread 对象自定义类继承 Thread前言网络爬虫程序是一种 IO 密集型(页面请求,文件读取)程序,会阻塞程序的运行消耗大量时间,而 Python 提供多种并发编程方式,能够在一定程度上提升 IO 密集型程序的执行效率。再开始之前你要先了解以下概念!基础知识并发:一段时间内发生某些事情。在单核 CPU 中,执行多个任务是以并发的方式运行的,由于只有一个核心处理器,CPU 把一个时间段划分成几个时间区间,各个任务只会在自己的时间区间执行,如果在自己的时间阶原创 2021-10-31 19:35:50 · 3285 阅读 · 6 评论 -
selenium用法详解【从入门到实战】【Python爬虫】【4万字】
文章目录selenium 简介selenium安装安装浏览器驱动确定浏览器版本下载驱动定位页面元素打开指定页面id 定位name 定位class 定位tag 定位xpath 定位css 定位link 定位partial_link 定位浏览器控制修改浏览器窗口大小浏览器前进&后退浏览器刷新浏览器窗口切换常见操作鼠标控制单击左键单击右键双击拖动鼠标悬停键盘控制设置元素等待显式等待隐式等待强制等待定位一组元素切换操作窗口切换表单切换弹窗处理上传 & 下载文件上传文件下载文件Chrome浏览器Fir原创 2021-10-09 14:17:33 · 242227 阅读 · 266 评论 -
爬虫 + 自动化利器 selenium 之自学成才篇(三)
承接上文爬虫+自动化利器 selenium 之自学成才篇(二)本文接着上篇继续讲解。原创 2021-10-08 18:45:00 · 1193 阅读 · 7 评论 -
爬虫 + 自动化利器 selenium 之自学成才篇(二)
文章目录设置元素等待显式等待隐式等待强制等待定位一组元素切换操作窗口切换表单切换弹窗处理❤ 系列内容 ❤爬虫+自动化利器 selenium 之自学成才篇(一)主要内容:selenium 简介、selenium 安装、安装浏览器驱动、8 种方式定位页面元素、浏览器控制、鼠标控制、键盘控制爬虫+自动化利器 selenium 之自学成才篇(二)主要内容:三种等待方式(显式等待、隐式等待、强制等待)、一组元素的定位方式、切换操作(窗口切换、表单切换)、弹窗处理等。爬虫+自动化利器 selenium 之自原创 2021-10-06 11:07:10 · 9585 阅读 · 35 评论 -
女友忽然欲买文胸,但不知何色更美,Python解之【全程实战,议藏之】
今日天气尚好,女友忽然欲买文胸,但不知何色更美,遂命吾剖析何色买者益众,为点议,事后而奖励之。原创 2021-09-29 13:10:54 · 4285 阅读 · 67 评论 -
爬虫 + 自动化利器 selenium 之自学成才篇(一)
selenium安装打开 cmd,输入下面命令进行安装。pip install -i https://pypi.douban.com/simple selenium执行后,使用 pip show selenium 查看是否安装成功。安装浏览器驱动针对不同的浏览器,需要安装不同的驱动。下面列举了常见的浏览器与对应的驱动程序下载链接,部分网址需要 “科学上网” 才能打开哦(dddd)。Firefox浏览器驱动:FirefoxChrome浏览器驱动:ChromeIE浏览器驱动:IEEdge浏原创 2021-09-25 18:12:01 · 11148 阅读 · 71 评论 -
别再说难了,年轻小伙教你如何爬取“新一线城市”二手房信息
别再说难了,年轻小伙手把手教你爬取“新一线城市”二手房信息主页面信息爬取主页面分析主页面url获取获取页面数据页面数据解析及保存详情页 url 数据详情页信息爬取详情页分析加载详情页url获取页面数据页面数据解析及保存详情页房屋数据写在前面身为一名快要步入社会的菜鸟程序员,每次在各大网站看到房价的时候,都感到头皮一凉(不是头发少哈),再抬手看看手机里的余额,瞬间泪目。。既然如此,那就先瞅瞅目前二手房的情况,瞅瞅又不要钱,看看目前都是什么行情,各地区房价的差异等。本文主要爬取链家中武汉二手房信息,包括原创 2021-05-30 17:08:22 · 7948 阅读 · 104 评论 -
Session和Cookie
Session和CookieSession和Cookie的基本原理SessionCookieSession和Cookie的区别在浏览网站的过程中,我们经常会遇到需要登录的情况,有些页面需要登陆之后才能访问,而且登录之后可以连续访问很多次网站,但是可能过一段时间就要重新登录。还有一些网站再打开浏览器时就自动登录了,而且长时间都不会失效。这里就涉及到Session和Cookie。Session和Cookie的基本原理Session和Cookie是用于保持HTTP连接状态的技术。在网页或App等应用中基本原创 2021-02-13 16:27:55 · 412 阅读 · 0 评论 -
分析万篇途牛旅游游记为你挑选最佳旅游景点
部分游记详情页旅游地点为空原创 2021-02-11 20:41:54 · 13480 阅读 · 4 评论 -
(异步爬虫)requests和aiohttp中代理IP的使用
(异步爬虫)requests和aiohttp中代理IP的使用爬虫要想爬的好,IP代理少不了。。现在网站基本都有些反爬措施,访问速度稍微快点,就会发现IP被封,不然就是提交验证。下面就两种常用的模块来讲一下代理IP的使用方式。话不多说,直接开始。requests中代理IP的使用:requests中使用代理IP只需要添加一个proxies参数即可。proxies的参数值是一个字典,key是代理协议(http/https),value就是ip和端口号,具体格式如下。try: response =原创 2020-11-11 15:38:42 · 77212 阅读 · 6 评论 -
(异步爬虫)aiomysql剔除代理池中失效的IP
(异步爬虫)aiomysql剔除代理池中失效的IP最近写的几个爬虫,都因为IP被封的原因,爬取的数据很少,尽管已经限制访问的时间,但时间长了,一直使用同一个IP必然有风险。所以趁着现在课少,写了个简单的代理池(仅供自用),目前还在一步步完善。下面就异步mysql和异步IP测试来简单记录一下。之前没怎么用协程,这次使用踩了不少坑。。话不多说直接开整。首先要做的肯定是获取当前数据库中已有的ip。由于只取一次,就直接pymysql来进行操作了。def query_db(): conn = pym原创 2020-11-10 22:36:26 · 1663 阅读 · 0 评论 -
selenium爬取300条京东懒加载的商品信息
selenium爬取京东懒加载的商品信息1.页面分析2.滑动滚动条获取完整页面源码3.解析源码获取标签内容4.保存信息至数据库5.运行结果1.页面分析首先给出要爬取数据的url: 京东进入页面后,显示在界面上的图片已经加载完成,但是没有显示在屏幕上的内容,是没有加载的,只有当我们拖动界面,才会对相应资源进行请求和加载,我们如果用requests模块直接去请求获取页面源码数据,获取的源码肯定不完整。这时就可以用selenium模拟浏览器的操作,通过拖动界面模拟人浏览,使浏览器资源加载完成后,再去获取页原创 2020-11-05 22:52:17 · 2470 阅读 · 1 评论 -
最新selenium+验证码识别模拟登陆b站
最新selenium+验证码识别模拟登陆b站主要步骤:1.分析登录界面结构2.使用selenium打开登录页面3.获取页面当前验证码图片3.1方法一、页面截图,将验证码区域进行裁剪保存3.2方法二、通过网页获取图片地址,并保存4.使用超级鹰识别验证码5.对获取的坐标数据进行提取,并用动作链完成点击完整代码作者刚学python爬虫的菜鸟一枚,内容如有不足,敬请指出。主要步骤:1.分析登录界面结构首先明确我们的目标,打开登陆界面,定位用户名和密码对应的标签,输入相关数据后,点击登录,此时页面会弹出验原创 2020-10-11 17:05:45 · 10498 阅读 · 6 评论