jyfool-CSDN博客

原创爬虫Scrapy XPath 取不出数据的问题排查小结

Scrapy爬取网页时XPath失效的常见原因是浏览器渲染的HTML与Scrapy获取的静态HTML存在差异，尤其在动态加载内容的情况下。解决方案包括：1)使用Scrapy-Splash或Selenium处理JS渲染；2)根据实际HTML调整XPath表达式；3)模拟浏览器请求头；4)保存HTML并开启浏览器离线模式验证结构一致性。关键是通过对比静态HTML和渲染后DOM的差异，针对性地修改XPath或启用JS渲染支持。

2025-06-12 09:51:35 454

原创使用谷歌翻译处理Excel文件导致url变化的教训

使用谷歌翻译导致excel的url字段被意外修改

2025-05-23 16:47:40 242

原创新手小白的三刀流：3个步骤+1次AI对话，5分钟实现数据从网页导入到数据库

本文介绍了一种利用大语言模型（LLM）从网页提取结构化数据并快速入库的高效方法。首先，通过浏览器的开发者工具提取目标网页的HTML片段并保存为文件。接着，使用精心设计的提示词驱动LLM解析HTML，提取所需数据（如新闻标题、日期、链接），并生成SQL插入语句。最后，将生成的SQL语句复制到数据库工具中执行，完成数据入库。该方法省去了传统爬虫的复杂脚本编写，适合快速处理网页数据，关键在于设计清晰的提示词，让LLM完成繁琐的解析和格式化工作。推荐工具包括Chrome/Edge浏览器、常见LLM（如deepsee

2025-05-20 09:50:00 305

原创主页地址采集不一致问题的分析与项目组内部规范建议

在多人协同项目中，企业主页地址的采集因组员对“主页地址”理解不一致，导致数据出现显著差异，增加了数据清洗成本并影响项目结果准确性。主要问题包括协议不一致、大小写差异、路径差异、子域名差异、末尾斜杠差异、查询参数冗余、本地化或语言版本差异、工具或平台差异、301重定向未统一以及无www的网址。这些问题导致程序在处理URL时无法正确归一化，引发数据重复或分析偏差。为解决这些问题，建议企业内部制定规范，统一使用HTTPS、域名大小写、子域名规则，处理301重定向，明确主页定义，去除末尾斜杠和参数，使用规范化工具，

2025-05-19 12:33:57 612

原创 MySQL 排序规则不一致导致的update错误问题及其对表设计的启示

在 MySQL 数据库开发中，排序规则（collation）不一致可能导致更新操作失败。本文通过一个实际案例，分析了由于 dict_company 和 my_companys 表中 homepage 字段的排序规则不同（分别为 utf8mb4_0900_ai_ci 和 utf8mb4_general_ci）而引发的错误。解决方案包括临时使用 COLLATE 关键字统一排序规则，或永久修改表结构以确保字段排序规则一致。此外，优化查询结构（如使用 JOIN）可以提高性能。为避免类似问题，建议在表设计时统一排序规

2025-05-19 11:05:04 877

原创合规批量下载美国上市公司年报数据的一些经验和总结

本文总结了使用Python脚本批量下载和处理美国上市公司SEC报告的技术经验。通过CIK代码查询SEC EDGAR系统，生成特定日期和报告类型的URL，并使用Selenium和Requests库下载报告内容。流程包括数据获取、文件下载、Excel处理和多线程优化，确保高效处理几百条数据。关键技术挑战包括SEC访问限制、动态网页内容和数据完整性，解决方案包括设置合规的User-Agent、使用Selenium模拟浏览器行为以及错误日志记录。最佳实践包括模块化设计、多线程优化和严格遵守SEC合规性。该自动化流程

2025-05-18 20:19:20 926

原创解决多语言网站文件名乱码问题：以 DART 网站为例

非标准编码：服务器将 UTF-8 字节序列误作 Latin-1，未使用filename*，导致乱码。多编码解码：优先，后备cp949和 RFC 2047，确保兼容性。前期调试：打印和字节序列，对比浏览器行为，快速定位编码问题。手动信息：通过开发者工具获取、字节序列和浏览器文件名，推断服务器编码。在处理多语言网站时，乱码问题可能频繁出现。提前收集关键信息，结合多编码解码逻辑，能有效应对类似挑战。希望这篇文章为你在爬取多语言内容时提供参考！

2025-05-08 10:45:44 549

原创解决 Python 下载 ZIP 文件失败的问题：从 DART 网站案例看关键点

空响应误判：不要因chunked或无跳过保存，需迭代所有分块数据。会话简化：验证 InPrivate 模式行为，移除不必要的初始化。请求头优化：匹配浏览器头，优先。调试响应：打印响应内容，确认数据存在（如PK开头）。前期通过浏览器开发者模式获取请求/响应头、响应内容和会话依赖，能有效避免类似问题。希望这篇文章为你在爬取文件时提供参考！

2025-05-08 10:42:39 682