- 博客(11)
- 资源 (1)
- 收藏
- 关注
原创 爬虫Scrapy XPath 取不出数据的问题排查小结
Scrapy爬取网页时XPath失效的常见原因是浏览器渲染的HTML与Scrapy获取的静态HTML存在差异,尤其在动态加载内容的情况下。解决方案包括:1)使用Scrapy-Splash或Selenium处理JS渲染;2)根据实际HTML调整XPath表达式;3)模拟浏览器请求头;4)保存HTML并开启浏览器离线模式验证结构一致性。关键是通过对比静态HTML和渲染后DOM的差异,针对性地修改XPath或启用JS渲染支持。
2025-06-12 09:51:35
454
原创 新手小白的三刀流:3个步骤+1次AI对话,5分钟实现数据从网页导入到数据库
本文介绍了一种利用大语言模型(LLM)从网页提取结构化数据并快速入库的高效方法。首先,通过浏览器的开发者工具提取目标网页的HTML片段并保存为文件。接着,使用精心设计的提示词驱动LLM解析HTML,提取所需数据(如新闻标题、日期、链接),并生成SQL插入语句。最后,将生成的SQL语句复制到数据库工具中执行,完成数据入库。该方法省去了传统爬虫的复杂脚本编写,适合快速处理网页数据,关键在于设计清晰的提示词,让LLM完成繁琐的解析和格式化工作。推荐工具包括Chrome/Edge浏览器、常见LLM(如deepsee
2025-05-20 09:50:00
305
原创 主页地址采集不一致问题的分析与项目组内部规范建议
在多人协同项目中,企业主页地址的采集因组员对“主页地址”理解不一致,导致数据出现显著差异,增加了数据清洗成本并影响项目结果准确性。主要问题包括协议不一致、大小写差异、路径差异、子域名差异、末尾斜杠差异、查询参数冗余、本地化或语言版本差异、工具或平台差异、301重定向未统一以及无www的网址。这些问题导致程序在处理URL时无法正确归一化,引发数据重复或分析偏差。为解决这些问题,建议企业内部制定规范,统一使用HTTPS、域名大小写、子域名规则,处理301重定向,明确主页定义,去除末尾斜杠和参数,使用规范化工具,
2025-05-19 12:33:57
612
原创 MySQL 排序规则不一致导致的update错误问题及其对表设计的启示
在 MySQL 数据库开发中,排序规则(collation)不一致可能导致更新操作失败。本文通过一个实际案例,分析了由于 dict_company 和 my_companys 表中 homepage 字段的排序规则不同(分别为 utf8mb4_0900_ai_ci 和 utf8mb4_general_ci)而引发的错误。解决方案包括临时使用 COLLATE 关键字统一排序规则,或永久修改表结构以确保字段排序规则一致。此外,优化查询结构(如使用 JOIN)可以提高性能。为避免类似问题,建议在表设计时统一排序规
2025-05-19 11:05:04
877
原创 合规批量下载美国上市公司年报数据的一些经验和总结
本文总结了使用Python脚本批量下载和处理美国上市公司SEC报告的技术经验。通过CIK代码查询SEC EDGAR系统,生成特定日期和报告类型的URL,并使用Selenium和Requests库下载报告内容。流程包括数据获取、文件下载、Excel处理和多线程优化,确保高效处理几百条数据。关键技术挑战包括SEC访问限制、动态网页内容和数据完整性,解决方案包括设置合规的User-Agent、使用Selenium模拟浏览器行为以及错误日志记录。最佳实践包括模块化设计、多线程优化和严格遵守SEC合规性。该自动化流程
2025-05-18 20:19:20
926
原创 解决多语言网站文件名乱码问题:以 DART 网站为例
非标准编码:服务器将 UTF-8 字节序列误作 Latin-1,未使用filename*,导致乱码。多编码解码:优先,后备cp949和 RFC 2047,确保兼容性。前期调试:打印和字节序列,对比浏览器行为,快速定位编码问题。手动信息:通过开发者工具获取、字节序列和浏览器文件名,推断服务器编码。在处理多语言网站时,乱码问题可能频繁出现。提前收集关键信息,结合多编码解码逻辑,能有效应对类似挑战。希望这篇文章为你在爬取多语言内容时提供参考!
2025-05-08 10:45:44
549
原创 解决 Python 下载 ZIP 文件失败的问题:从 DART 网站案例看关键点
空响应误判:不要因chunked或无跳过保存,需迭代所有分块数据。会话简化:验证 InPrivate 模式行为,移除不必要的初始化。请求头优化:匹配浏览器头,优先。调试响应:打印响应内容,确认数据存在(如PK开头)。前期通过浏览器开发者模式获取请求/响应头、响应内容和会话依赖,能有效避免类似问题。希望这篇文章为你在爬取文件时提供参考!
2025-05-08 10:42:39
682
原创 用python创建epub文件的一些知识点
读取json配置文件,然后把几个xhtml文件合并为epub的python库。配置文件里包含了书名、作者、封面图像路径、各个章节的路径和章节名称。
2025-01-12 17:11:45
538
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人