爬虫_普通网友的博客-CSDN博客

爬虫

关注

关注数：文章数：45 文章阅读量：13187270 文章收藏量：525

作者: 普通网友

这个作者很懒，什么都没留下…

展开

python 爬虫分段视频批量爬取 m3u8流媒体格式转换案例2（解决ts文件排序问题；用到lambda）

排序前后情况代码：#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2021/1/1 17:05# @Author : huni# @File : m3u8下载合成案例2.py# @Software: PyCharm#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2020/11/28 18:33# @Author : huni# @File

原创 2021-01-01 17:18:41 · 314789 阅读 · 10 评论
python 爬虫通过搜索引擎搜索好看的图片进行爬取（解决页面广告链接问题）

仅仅展示单线程的代码，多线程可以自行探索不在过多赘述#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2020/12/31 12:02# @Author : huni# @File : xxx单函数.py# @Software: PyCharmimport requestsfrom lxml import etreefrom urllib import parseimport osif __name__ == '_

原创 2020-12-31 13:22:19 · 314644 阅读 · 7 评论
python 爬虫通过搜索引擎搜索好看的图片进行多线程高效率爬取（解决href关联问题）

效果：单线程模式：#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2020/12/30 18:56# @Author : huni# @File : 图集谷单函数.py# @Software: PyCharmimport requestsfrom lxml import etreefrom urllib import parseimport osif __name__ == '__main__': h

原创 2020-12-30 19:40:52 · 350864 阅读 · 4 评论
python 爬虫王者荣耀皮肤图片爬取

#!/usr/bin/env python# -*- coding: utf-8 -*-"""抓取王者荣耀皮肤author: hunidate: 2020-12-29"""import requestsfrom bs4 import BeautifulSoupfrom urllib import parseimport osclass Skin(object): def __init__(self): # 英雄的json数据 self.h

原创 2020-12-29 14:10:05 · 314650 阅读 · 0 评论
python 爬虫快看漫画整站爬取（解决动态加载漫画图片地址、漫画图片合成长图、图片文件排序等问题）

运行结果：这个是爬取的目标爬取之后建立文件夹，合成长图之后删除文件夹这里仅仅做几组演示，由于合成的图片有单列长度限制，所有拆分成两列开始：首先打开网站，找到某个漫画，发现点鼠标右键不可以，那就这样：然后就是漫画的图片是切分成好几段小图片，而且图片的地址是动态加载出来的，仅仅使用etree是提取不出来的所以这里是用来selenium无头浏览器做为辅助然后就是文件排序问题，为了后面的合成长图片命名方式选择到这样命名方便后面的排序好了，然后局可以写代码了：单线程代码：#!

原创 2020-12-19 16:31:11 · 331006 阅读 · 2 评论
python 爬虫图图岛多线程并发爬取搜索内容的全部数据（解决href关联问题）

#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2020/12/18 19:30# @Author : huni# @File : 图图岛多线程.py# @Software: PyCharmimport requestsfrom lxml import etreeimport osfrom threading import Threadfrom queue import Queuefrom urllib impo

原创 2020-12-18 19:49:37 · 331615 阅读 · 1 评论
python 爬虫 selenium自动化爬取QQ音乐MV视频（解决动态加载的url）

思路：随便找一个MV，打开抓包工具，找MP4路径，发现这个MP4的url，但是如何获取这个url呢？总不能每次都抓包吧，首先咱们用另外一个mv地址看看url有什么变化，

原创 2020-12-18 15:15:22 · 329334 阅读 · 1 评论
python 爬虫 ASMR网站在线音频的爬取（解决ajax动态加载网页）

#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2020/12/17 13:32# @Author : huni# @File : 18asmr爬取.py# @Software: PyCharmimport reimport osimport requestsfrom lxml import etreeimport jsonif __name__ == '__main__': headers = {

原创 2020-12-17 15:47:14 · 335491 阅读 · 0 评论
python 爬虫利用ffmpeg 合成音频和视频并写入到一个文件（音视频合成）

#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2020/12/16 15:40# @Author : huni# @File : 合并音频视频.py# @Software: PyCharmimport osif __name__ == '__main__': mp4_f = input('输入视频文件路径') # 类似这样"F:/xxx/xxxxx.webm" 视频文件 mp3_f = i

原创 2020-12-16 18:25:51 · 335117 阅读 · 0 评论
python 爬虫 50行代码爬取超清4k壁纸图（处理中文乱码问题）

运行结果就不放了，自己下载源码测试下#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2020/12/15 19:10# @Author : huni# @File : 图库大全1000.py# @Software: PyCharmimport requestsfrom lxml import etreeimport osif __name__ == '__main__': headers = {

原创 2020-12-15 19:42:59 · 333755 阅读 · 1 评论
python 爬虫美桌网 50行代码爬取明星写真摄影图片

好几天没更图片爬虫了，今天就简单的趴一下美桌网：运行效果如下：其中，每位明星单独一个文件夹，写真的册也是单独一个文件夹，非常的银杏源码：#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2020/12/15 18:14# @Author : huni# @File : 美桌网.py# @Software: PyCharmimport requestsfrom lxml import etreeimport

原创 2020-12-15 18:55:23 · 334402 阅读 · 2 评论
python 爬虫一个好看的壁纸网站分辨率较高可以保存收藏

#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2020/12/11 16:31# @Author : huni# @File : 好看的壁纸图片爬取.py# @Software: PyCharmimport requestsfrom lxml import etreeimport osfrom threading import Threadfrom queue import Queueclass CrawlI

原创 2020-12-11 16:51:21 · 334692 阅读 · 0 评论
python 爬虫又发现一个宝藏网站爬它

#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2020/12/10 15:37# @Author : huni# @File : aitu吧多线程.py# @Software: PyCharmimport requestsfrom lxml import etreeimport osfrom queue import Queuefrom threading import Threadclass CrawlI

原创 2020-12-10 16:44:13 · 335407 阅读 · 0 评论
python 爬虫自动化 selenium 模拟网站点击和滑动验证码操作

#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2020/12/10 14:59# @Author : huni# @File : 业务带shua网自动shua赞.py# @Software: PyCharmfrom selenium import webdriverfrom time import sleepfrom selenium.webdriver import ActionChains #导入动作链

原创 2020-12-10 15:31:53 · 335074 阅读 · 2 评论
python 爬虫表情包爬取自编

#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2020/12/7 19:12# @Author : huni# @File : 表情包单函数.py# @Software: PyCharmimport requestsfrom lxml import etreeimport osfrom urllib import parseif __name__ == '__main__': headers = {

原创 2020-12-08 09:27:40 · 331872 阅读 · 0 评论
python 爬虫全站高质量数据内容快速爬取要素过多建议收藏

#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2020/12/7 15:06# @Author : huni# @File : 高质量多线程.py# @Software: PyCharmfrom threading import Threadfrom queue import Queueimport requestsfrom lxml import etreeimport osfrom urllib impor

原创 2020-12-07 18:24:13 · 330323 阅读 · 0 评论
python 爬虫当碰到网站管理员设置搜索间隔时间反爬机制时怎么应对

在获取列表页时休眠几秒，把获取之后的页存到内存之后就可以肆无忌惮得爬了写的时候出的错：global（）错用导致检查好久代码实现：#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2020/12/5 16:00# @Author : huni# @File : 应对搜索间隔反爬.py# @Software: PyCharmimport requestsfrom lxml import etreefrom urlli

原创 2020-12-05 20:24:26 · 321560 阅读 · 0 评论
python 爬虫如法炮制通过搜索引擎爬取相关得要的数据

#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2020/12/5 13:18# @Author : huni# @File : 搜索爬取.py# @Software: PyCharmimport requestsfrom lxml import etreefrom urllib import parseimport osimport timefrom queue import Queuefrom threa

原创 2020-12-05 14:59:46 · 319222 阅读 · 0 评论
python 爬虫四线程分工明确蚂蚁搬家搜索关键词获取全部相关内容

线程一：获取所有列表页线程二：解析所有列表页，获取每个列表页的主题页线程三：解析主题页，获取主图页的每个详情页页码线程四：解析每个详情页，获取想要的数据保存本地代码实现：#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2020/12/04 10:33# @Author : huni# @File : 四线程分工明确.py# @Software: PyCharmfrom threading import Thre

原创 2020-12-04 13:29:22 · 311363 阅读 · 1 评论
python 爬虫网站可视化像素点集合单元合集的采集项目自编

#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2020/11/14 18:33# @Author : huni# @File : 爬壁纸（多线程+多页爬取）.py# @Software: PyCharmfrom threading import Thread #多线程的包from queue import Queue #队列from fake_useragent import

原创 2020-12-03 19:08:50 · 308656 阅读 · 0 评论
python 爬虫可以反复运行的一段代码创作者利器

#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2020/12/2 10:16# @Author : huni# @File : csdn阅读量.py# @Software: PyCharmimport requestsfrom lxml import etreeimport timeif __name__ == '__main__': headers = { 'User-Agent':

原创 2020-12-03 18:58:12 · 305752 阅读 · 0 评论
python 爬虫网站的历史数据的爬取案例 API请求历史数据

#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2020/11/18 13:02# @Author : huni# @File : 疫情数据分析.py# @Software: PyCharmimport requestsimport sqlite3def getData(url): headers = { 'Referer': 'https://news.qq.com/zt2020/pa.

原创 2020-12-03 18:47:30 · 303178 阅读 · 1 评论
python 爬虫论一个爬虫的自我修养

#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2020/12/1 14:34# @Author : huni# @File : 全站爬取.py# @Software: PyCharmimport requestsfrom lxml import etreeimport osif __name__ == '__main__': headers = { 'Referer': 'http://

原创 2020-12-03 18:43:11 · 299462 阅读 · 0 评论
python 爬虫基于网站博主所有作品多线程爬取优化细节

#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2020/12/1 18:33# @Author : huni# @File : 爬壁纸（多线程+多页爬取）.py# @Software: PyCharmfrom threading import Thread #多线程的包from queue import Queue #队列import requestsfrom lxml im

原创 2020-12-01 18:35:48 · 296245 阅读 · 0 评论
python 爬虫古诗词网按照作者爬取所有作品

以李清照为例，爬取结果展示：代码实现：#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2020/11/30 19:59# @Author : huni# @File : 古诗词作者作品.py# @Software: PyCharmimport requestsfrom lxml import etreeif __name__ == '__main__': headers = { 'Us

原创 2020-12-01 09:15:59 · 293786 阅读 · 3 评论
python 爬虫金山词霸每日一句优美的文段中英文爬取自编

效果：代码：#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2020/11/29 14:42# @Author : huni# @File : ciba.py# @Software: PyCharmimport requestsimport datetimeimport sqlite3def getContent(date_list): headers = { 'Referer':

原创 2020-11-29 19:37:33 · 285710 阅读 · 0 评论
python 爬虫爬取时长几个小时的电影 m3u8流媒体格式转换

效果：#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2020/11/28 18:33# @Author : huni# @File : 长电影爬取.py# @Software: PyCharmfrom threading import Thread #多线程的包from queue import Queue #队列import requestsimport osc

原创 2020-11-29 11:04:07 · 282963 阅读 · 0 评论
python 爬虫睡不着觉听音频全站爬取所有音频内容

#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2020/11/27 18:33# @Author : huni# @File : 全站音频.py# @Software: PyCharmfrom threading import Thread #多线程的包from queue import Queue #队列import requestsfrom lxml import etr

原创 2020-11-28 15:04:39 · 280127 阅读 · 3259 评论
python爬虫多线程任务爬取全站数据内容大项目多行代码易混淆代码警告

#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2020/11/26 18:33# @Author : huni# @File : 爬全站.py# @Software: PyCharmfrom threading import Threadfrom queue import Queueimport requestsfrom lxml import etreeimport osclass CrawlInfo(

原创 2020-11-27 14:39:44 · 275466 阅读 · 0 评论
python 爬虫自编小项目可实现十几分钟下载网页数十页数据

#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2020/11/24 18:33# @Author : huni# @File : 多线程+多页爬）.py# @Software: PyCharmfrom threading import Thread # 多线程的包from queue import Queue # 队列import requestsfrom lxml impo

原创 2020-11-26 13:30:21 · 272043 阅读 · 0 评论
python 爬虫多页数据爬取多线程爬取案例

#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2020/11/24 18:33# @Author : huni# @File : 多线程+多页爬）.py# @Software: PyCharmfrom threading import Thread #多线程的包from queue import Queue #队列from fake_useragent import UserA

原创 2020-11-25 14:58:24 · 267764 阅读 · 0 评论
python 爬虫全国各地车牌号爬取自编

运行效果：代码实现：#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2020/11/24 8:51# @Author : huni# @File : 车牌号.py# @Software: PyCharmimport requestsfrom lxml import etreeimport sqlite3def getData(url): headers = { 'User-Age

原创 2020-11-24 13:11:30 · 266573 阅读 · 1 评论
python 爬虫破猫眼票房字体加密反爬策略

首先，打来猫眼票房排行榜发现这几个数据都是加密的，用xpath提取text（）会是空的或者乱码，思路：首先在源码中找到加密的字体文件，（像这种加密字体一般是通过加载本体字体库文件上传到前端，数字才能显示出来，一半字体文件也会加载到源码中）。在通过字体编码解码模块对字体文件进行编码解码操作，可以得到一对映射关系，这里看的不是很明白，可以借助High-Logic FontCreator软件看明白然后简历一个初始的字典映射：因为每次刷新页面这个字体库文件都会变化，所以需要每次把字体库正则提取

原创 2020-11-23 18:22:54 · 265383 阅读 · 3217 评论
python 爬虫批量获取全国各市县的邮政编码

运行效果如下，邮编直接具体到地级市，县等行政区划地区：从北京开始，一直到台湾全部的邮政编码都有代码实现：#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2020/11/21 10:05# @Author : huni# @File : 全国邮编.py# @Software: PyCharmimport requestsfrom lxml import etreeimport sqlite3def ge

原创 2020-11-21 21:11:14 · 259171 阅读 · 1 评论
python 爬虫抓取2020最新房价信息买不起看看总可以吧

运行结果：代码实现：#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2020/11/21 12:00# @Author : huni# @File : 2020房价信息爬取.py# @Software: PyCharmimport requestsfrom lxml import etreeimport sqlite3def getData(url): headers = { 'U

原创 2020-11-21 12:36:08 · 255917 阅读 · 0 评论
python 自动化 selenium 爬取极简壁纸好看的图片

selenium的作用就是操控浏览器模拟人的动作进行访问网页的操作适合自动化测试，以及对于动态加载页面的网页进行爬虫代码的编写这里以Chrome浏览器为例，只选择下载其中的一张图片为例，后面还可以优化再批量下载以及爬取全站数据等运行结果演示：完整代码（附详细注释）：#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2020/11/20 18:22# @Author : huni# @File : selenium自动

原创 2020-11-21 10:03:04 · 250291 阅读 · 7 评论
python 爬虫中国大学2020排行榜数据爬取并保存在数据库

代码里面进行了详细的注释，这里不再一一说明代码实现：#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2020/11/18 8:21# @Author : huni# @File : 大学排名.py# @Software: PyCharmimport requestsfrom lxml import etreeimport sqlite3#获取数据解析数据，因为爬取的量不大所以就写在一个函数中def get

原创 2020-11-18 09:52:07 · 253692 阅读 · 9160 评论
python 爬虫有深意有哲理的经典电影台词爬下来读给你身边的人听哦

效果图：多线程，代码实现：#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2020/11/14 18:33# @Author : huni# @File : dianyingtaici.py# @Software: PyCharmfrom threading import Thread #多线程的包from queue import Queue #队列from fake_

原创 2020-11-17 19:39:26 · 245914 阅读 · 0 评论
python 爬虫一部小说的内容移植到本地需要多久呢

小说名称《赘婿》，作者：愤怒的香蕉，侵权删单线程代码，代码实现：#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2020/11/17 11:34# @Author : huni# @File : 爬纵横中文小说.py# @Software: PyCharmimport requestsfrom lxml import etreeimport Zstringimport osimport timestart

原创 2020-11-17 19:31:01 · 242761 阅读 · 2 评论
python selenium 爬虫模拟12306网站登录的操作

参考CSDN上不少大佬们的方法思路，自己写出来源码如下超级鹰模块：#!/usr/bin/env python# coding:utf-8import requestsfrom hashlib import md5class Chaojiying_Client(object): def __init__(self, username, password, soft_id): self.username = username password = p

原创 2020-11-15 08:13:36 · 240997 阅读 · 1 评论

爬虫

作者: 普通网友

python 爬虫 分段视频批量爬取 m3u8流媒体格式转换案例2（解决ts文件排序问题；用到lambda）

python 爬虫 通过搜索引擎搜索好看的图片进行爬取（解决页面广告链接问题）

python 爬虫 通过搜索引擎搜索好看的图片进行多线程高效率爬取（解决href关联问题）

python 爬虫 王者荣耀皮肤图片爬取

python 爬虫 快看漫画整站爬取（解决动态加载漫画图片地址、漫画图片合成长图、图片文件排序等问题）

python 爬虫 图图岛多线程并发爬取搜索内容的全部数据（解决href关联问题）

python 爬虫 selenium自动化爬取QQ音乐MV视频（解决动态加载的url）

python 爬虫 ASMR网站在线音频的爬取（解决ajax动态加载网页）

python 爬虫 利用ffmpeg 合成音频和视频并写入到一个文件（音视频合成）

python 爬虫 50行代码爬取超清4k壁纸图（处理中文乱码问题）

python 爬虫 美桌网 50行代码爬取明星写真摄影图片

python 爬虫 一个好看的壁纸网站 分辨率较高可以保存收藏

python 爬虫 又发现一个宝藏网站 爬它

python 爬虫 自动化 selenium 模拟网站点击和滑动验证码操作

python 爬虫 表情包爬取自编

python 爬虫 全站高质量数据内容快速爬取 要素过多 建议收藏

python 爬虫 当碰到网站管理员设置搜索间隔时间反爬机制时怎么应对

python 爬虫 如法炮制 通过搜索引擎爬取相关得要的数据

python 爬虫 四线程 分工明确 蚂蚁搬家 搜索关键词获取全部相关内容

python 爬虫 网站可视化像素点集合单元合集的采集项目自编

python 爬虫 可以反复运行的一段代码 创作者利器

python 爬虫 网站的历史数据的爬取案例 API请求历史数据

python 爬虫 论一个爬虫的自我修养

python 爬虫 基于网站博主所有作品多线程爬取优化细节

python 爬虫 古诗词网按照作者爬取所有作品

python 爬虫 金山词霸每日一句 优美的文段中英文爬取自编

python 爬虫 爬取时长几个小时的电影 m3u8流媒体格式转换

python 爬虫 睡不着觉听音频 全站爬取所有音频内容

python爬虫 多线程任务爬取全站数据内容 大项目 多行代码易混淆代码警告

python 爬虫 自编小项目可实现十几分钟下载网页数十页数据

python 爬虫 多页数据爬取多线程爬取案例

python 爬虫 全国各地车牌号爬取自编

python 爬虫 破猫眼票房字体加密反爬策略

python 爬虫 批量获取全国各市县的邮政编码

python 爬虫 抓取2020最新房价信息 买不起看看总可以吧

python 自动化 selenium 爬取极简壁纸好看的图片

python 爬虫 中国大学2020排行榜数据爬取并保存在数据库

python 爬虫 有深意有哲理的经典电影台词爬下来读给你身边的人听哦

python 爬虫 一部小说的内容移植到本地需要多久呢

python selenium 爬虫 模拟12306网站登录的操作

python 爬虫分段视频批量爬取 m3u8流媒体格式转换案例2（解决ts文件排序问题；用到lambda）

python 爬虫通过搜索引擎搜索好看的图片进行爬取（解决页面广告链接问题）

python 爬虫通过搜索引擎搜索好看的图片进行多线程高效率爬取（解决href关联问题）

python 爬虫王者荣耀皮肤图片爬取

python 爬虫快看漫画整站爬取（解决动态加载漫画图片地址、漫画图片合成长图、图片文件排序等问题）

python 爬虫图图岛多线程并发爬取搜索内容的全部数据（解决href关联问题）

python 爬虫利用ffmpeg 合成音频和视频并写入到一个文件（音视频合成）

python 爬虫美桌网 50行代码爬取明星写真摄影图片

python 爬虫一个好看的壁纸网站分辨率较高可以保存收藏

python 爬虫又发现一个宝藏网站爬它

python 爬虫自动化 selenium 模拟网站点击和滑动验证码操作

python 爬虫表情包爬取自编

python 爬虫全站高质量数据内容快速爬取要素过多建议收藏

python 爬虫当碰到网站管理员设置搜索间隔时间反爬机制时怎么应对

python 爬虫如法炮制通过搜索引擎爬取相关得要的数据

python 爬虫四线程分工明确蚂蚁搬家搜索关键词获取全部相关内容

python 爬虫网站可视化像素点集合单元合集的采集项目自编

python 爬虫可以反复运行的一段代码创作者利器

python 爬虫网站的历史数据的爬取案例 API请求历史数据

python 爬虫论一个爬虫的自我修养

python 爬虫基于网站博主所有作品多线程爬取优化细节

python 爬虫古诗词网按照作者爬取所有作品

python 爬虫金山词霸每日一句优美的文段中英文爬取自编

python 爬虫爬取时长几个小时的电影 m3u8流媒体格式转换

python 爬虫睡不着觉听音频全站爬取所有音频内容

python爬虫多线程任务爬取全站数据内容大项目多行代码易混淆代码警告

python 爬虫自编小项目可实现十几分钟下载网页数十页数据

python 爬虫多页数据爬取多线程爬取案例

python 爬虫全国各地车牌号爬取自编

python 爬虫破猫眼票房字体加密反爬策略

python 爬虫批量获取全国各市县的邮政编码

python 爬虫抓取2020最新房价信息买不起看看总可以吧

python 爬虫中国大学2020排行榜数据爬取并保存在数据库

python 爬虫有深意有哲理的经典电影台词爬下来读给你身边的人听哦

python 爬虫一部小说的内容移植到本地需要多久呢

python selenium 爬虫模拟12306网站登录的操作