自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(47)
  • 收藏
  • 关注

原创 抖音关键词搜索爬虫,抖音API数据接口,抖音商品详情数据采集

本文介绍了作者开发了一款针对抖音平台的MVP应用,专注于商品API接口,满足用户在直播间的关键词搜索需求,以及收集小黄车和抖店的商品数据,展示了抖音作为流量池的重要性和实用性。

2024-07-09 15:59:43 497

原创 UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\u010d‘ in position错误解决

UnicodeEncodeError: 'gbk' codec can't encode character '\u010d' in position错误解决

2024-06-20 16:19:32 135

原创 抖音直播间弹幕解析:点赞,评论,送礼,进入提示,粉丝团,关注,在线人数等

抖音直播间弹幕解析:点赞,评论,送礼,进入提示,粉丝团,关注,在线人数等

2024-06-17 16:55:23 481

原创 抖音 根据sec uid获取个人详细信息(性别、年龄、属地、关注数、粉丝数、简介等)

抖音 根据sec uid获取个人详细信息(性别、年龄、属地、关注数、粉丝数、简介等)

2024-06-11 15:04:39 312 1

原创 签名算法,API签名算法

签名算法php,API签名算法

2024-06-05 11:23:11 57

原创 新版本的a_bogus算法实现与还原

新版本的a_bogus算法实现与还原

2024-05-21 17:03:55 214

原创 _signature、a_bogus、X-Bogus、msToken,s_v_web_id生成【2024.5.21】全站通用a-bogus

_signature、a_bogus、X-Bogus、msToken,s_v_web_id生成【2024.5.21】全站通用a-bogus

2024-05-21 15:06:34 232 1

原创 s_v_web_id或fp协议过签名,dy滑块

s_v_web_id或fp协议过签名,dy滑块

2024-05-21 14:51:49 213 1

原创 Python网页解析之BeautifulSoup详解

以下是本文的摘要:本文详细介绍了Python用于网页解析的BeautifulSoup库。首先简单介绍了BeautifulSoup的概念及主要作用。然后列出了如何通过pip安装BeautifulSoup库的方法。接着通过实例代码演示了BeautifulSoup的基本使用方式,包括导入库、创建解析对象等。文章的重点部分是详细阐述了如何使用BeautifulSoup从HTML/XML文档中提取数据,包括提取标签、标签内容、标签属性,以及利用find()和find_all()方法查找指定标签。

2024-05-21 10:35:05 508

原创 Shopee单个商品详情采集

以上Shope单个商品数据采集的示例,更多场景如品类搜索、评论翻页等,则需要进一步分析网站逻辑并编写对应的代码。最重要的是,在进行采集时要保证行为的合法性,不能影响目标网站的正常运行,尊重对方的知识产权。除了伪造请求头,我们还可以在脚本中加入一些行为,比如鼠标移动、滚动加载数据等,以模拟真实的人机交互过程。对于一些复杂的人机验证机制,例如图形验证码、行为验证、手动操作等,可以引入人工参与流程,避免被彻底拦截。需要注意的是,网站的结构和数据加载方式时而会发生变化,采集程序需要相应地进行调整,并处理异常等情况。

2024-05-20 11:39:23 933

原创 爬虫的分类

本文介绍了四种主要的网络爬虫类型:通用爬虫、聚焦爬虫、增量爬虫和深度爬虫。通用爬虫旨在抓取整个互联网的数据,建立搜索引擎索引,通常采用分布式架构。聚焦爬虫则只爬取符合特定主题或目标的网页,需要应用主题过滤和评分算法。增量爬虫用于定期更新已有数据集,只爬取新增或变化的网页,能极大节省开销。深度爬虫的目标是获取隐藏在深层网络数据库后的数据,需要分析查询接口并构造智能查询。四种爬虫均面向不同的应用场景,代表了爬虫技术的不同发展方向。随着万维网的持续演进,爬虫技术也将日趋完善和成熟。

2024-05-20 11:17:16 950

原创 网页解析之lxml与xpath

网页解析之lxml与xpath。

2024-05-20 11:13:33 469

原创 requests模拟发送请求Get/Post

总之,无论是模拟请求头、使用Selenium/Requests组合、Playwright或Pyppeteer,都可以在一定程度上绕过反爬虫策略,成功采集所需的数据。Selenium可以驱动真正的浏览器内核发送请求,无疑是模拟请求的终极武器。在网络爬虫的对抗路上,要想成功采集数据,有时需要模拟真实浏览器的行为发送请求,以通过网站反爬虫机制的检测。好的,我们在发送HTTP请求时,最常见的两种方法就是GET和POST请求。- GET请求参数包含在URL中,POST请求参数放在请求体中。

2024-05-18 22:13:23 447

原创 Requests对象如何处理反爬虫机制

本文主要介绍了如何使用Python的Requests库正确发送HTTP请求,以绕过网站的反爬虫机制成功采集数据。首先阐述了设置合理的User-Agent来模拟主流浏览器的重要性。其次提到了隐藏爬虫特征的几种技巧,如避免常见爬虫请求头、添加缓存字段、设置Referer等。第三点介绍了模拟移动端浏览器发送请求的做法,以采集移动版网页内容。第四点强调了控制请求频率的必要性,可以使用时延、限制并发或IP代理池等方式。此外,文章还讲解了处理Cookies和设置代理的方法,以绕过部分反爬虫策略。

2024-05-18 22:00:33 568

原创 网页抓取之requests库的使用

在Python网络爬虫领域,优秀的第三方库Requests可谓是必学的重要工具。它提供了相当人性化的API,让我们能够用极其简洁的代码发送HTTP/HTTPS请求,并且自动处理cookies、headers、编码等诸多繁琐细节,大大减轻了网页抓取的编程负担。本文将全面介绍Requests库的主要功能和使用方式。

2024-05-18 21:55:43 512

原创 爬虫基础入门简介

互联网是由一个一个的超链接组成的,从一个网页的链接可以跳到另一个网页,在新的网页里,又有很多链接。理论上讲,从任何一个网页开始,不断点开链接、链接的网页的链接,就可以走遍整个互联网!这个过程是不是像蜘蛛沿着网一样爬?这也是“爬虫”名字的由来。作为爬虫工程师,就是要写出一些能够沿着网爬的”蜘蛛“程序,保存下来获得的信息。一般来说,需要爬出来的信息都是结构化的,如果不是结构化的,那么也就没什么意义了(百分之八十的数据是非结构化的)。

2024-05-18 21:47:28 887

原创 基于Redis实现爬虫分布式管理

Redis以其高效、丰富的数据结构和分布式特性,为构建大规模、高性能、可扩展的分布式爬虫系统提供了非常好的基础架构和技术支持

2024-05-18 21:28:12 906

原创 如何在CentOS系统中管理Docker容器

本文介绍了如何在CentOS系统上安装和管理Docker容器。首先详细讲解了在CentOS上安装Docker引擎的步骤,包括配置Docker存储库、安装所需包以及启动Docker服务。其次,介绍了Docker容器的基本管理命令,如拉取镜像、启动容器、查看运行中容器、停止和删除容器等。还介绍了一些高级管理命令,比如在容器内执行命令、在容器和主机之间复制文件、保存容器为新镜像、查看端口映射等。最后,阐述了如何设置Docker服务和已有容器开机自动启动的方法,包括启用Docker服务开机自启动,以及配置特定容

2024-05-18 21:14:19 299

原创 如何安装 Docker

本文介绍了 Docker 技术的重要性和应用场景,以及在 Windows、Mac 和 Linux 系统上安装 Docker 的方法。Docker 是一个开源的容器化平台,能够帮助开发人员和运维团队更轻松地打包、交付和运行应用程序。在 Windows 上需要安装 Docker Desktop for Windows,在 Mac 上需要安装 Docker Desktop for Mac,而在 Linux 上则有不同的安装命令适用于不同发行版。最后,验证安装可以通过在终端中运行 docker --version

2024-05-18 21:02:24 380

原创 使用 Supervisorctl 进程管理工具

本文介绍了如何使用 Supervisorctl 进程管理工具来管理进程。首先,我们学习了安装 Supervisor 的步骤,并了解了如何配置 Supervisor 来监控需要管理的进程。随后,我们探讨了 Supervisorctl 的常用命令,包括启动、停止、重启进程以及查看进程状态和日志等操作。此外,还介绍了一些高级用法,如事件监听和进程组管理。通过本文的指导,读者可以更好地利用 Supervisorctl 工具来管理各种进程,确保系统稳定运行。

2024-05-18 20:50:41 373

原创 主流短视频评论采集python爬虫(含一二级评论内容)

抖音评论采集python爬虫(含一二级评论内容)

2024-05-15 13:44:06 751 7

原创 Java实现的网上书店系统(附带完整源码)

图书管理:新书上架,可以上传书籍封面图片,删除图书,修改图书信息,图书的分类查询。订单管理:按照订单状态查找订单,订单包括四个状态:已付款等待发货、已发货、已取消、已完成。查看订单信息,商品发货。查看购物车:查看自己的购物车里的书籍,可以对购物车中物品进行删除。查看订单:查看自己的订单及订单状态等。生成新的订单:对购物车中的物品进行结算并生成新的订单。通过对用户需求的分析,本系统的功能主要包括两个模块,前台顾客操作及后台店家管理。在本模块中用户可以对自己购物车中的图书进行清空,或者结算生成新的订单。

2024-05-10 11:35:54 137

原创 新版a_bogus算法分析

新版a_bogus算法分析以及成品展示调用

2024-04-23 17:24:55 344

原创 douyin uid转sec_uid 各种进行转换

douyin uid转sec_uid 各种进行转换

2024-04-22 10:08:02 380

原创 dy号转uid和sec_uid

dy号转uid和sec_uid

2024-04-19 16:39:14 418 2

原创 新版a_bogus算法分析以及成品展示调用

新版a_bogus算法分析以及成品展示调用

2024-04-18 15:54:09 437 2

原创 新版a_bogus算法分析以及成品展示调用

新版a_bogus,新版a_bogus算法分析以及成品展示调用

2024-04-18 15:51:08 1075 1

原创 webcast_uid转sec_uid,webcast_uid转uid,webcast_uid转抖音号

webcast_uid转sec_uid,webcast_uid转uid,webcast_uid转抖音号

2024-04-13 22:45:11 564 3

原创 主流短视频直播弹幕采集

抖音实时弹幕和礼物信息数据

2024-04-02 11:26:37 200 5

原创 抖音 根据sec uid获取个人详细信息(性别、年龄、属地、关注数、粉丝数等)

抖音 根据sec uid获取个人详细信息(性别、年龄、属地、关注数、粉丝数等)

2024-03-21 15:07:55 1220 3

原创 dy直播弹幕采集

dy直播弹幕采集

2024-03-08 13:44:10 454 1

原创 b站视频无水印下载python实现

b站视频无水印下载python实现

2024-01-12 14:56:53 697 1

原创 webcast_uid转sec_uid,webcast_uid转uid,webcast_uid转抖音号

webcast_uid转sec_uid,webcast_uid转uid,webcast_uid转dy号

2023-11-30 11:46:58 1312 12

原创 douyin sec_uid转webcast_uid

douyin sec_uid转webcast_uid

2023-11-08 10:16:13 944 11

原创 西瓜视频无水印下载

通过西瓜视频id获取视频详情信息,包含视频无水印链接

2023-11-07 16:47:43 1372

原创 douyin uid转sec_uid 各种进行转换

本篇文章进行dy的uid转sec_uid

2023-11-03 11:10:50 1191 16

原创 如何获取dy无水印视频的链接

首先拿到作品id 类似于6972960481946520868一长串的数字。特此声明仅用于学习交流,不得用于其他用途。转换成功,可以批量转换,写入文本转换,

2023-10-31 17:02:38 1647 1

原创 dy号转换uid和secuid

dy号转换uid和secuid

2023-10-22 17:16:25 1264 7

原创 linux部署集群代码

本文主要讲解使用Rsync对多台服务器的python代码进行更新同步并不修改代码的配置文件,极速更新,只更新有变动的代码所有更新同步非常快,而不是复制整个项目

2023-09-15 16:43:04 75

原创 根据抖音号查询抖音账号关注数点赞数作品列表

通过抖音接口获取账号的作品列表,关注数粉丝数

2023-08-19 11:23:59 1219 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除