- 博客(8)
- 收藏
- 关注
原创 基于首届中国互联网数据挖掘竞赛数据集的行为日志清洗实践
本文基于首届中国互联网数据挖掘竞赛数据集,对1000名用户4周的上网行为日志进行清洗与分析。原始数据包含800多万条记录,通过结构化处理将其整理为会话级和事件级两个CSV文件。清洗过程保留原始数据完整性,采用保守策略处理异常值,并添加质量标记。结果显示数据质量良好,成功解析所有23137个日志文件,提取出917万条行为事件。初步统计发现用户主要使用IE、360、QQ等浏览器,频繁访问QQ空间、百度、淘宝等网站,反映了2012年中国网民的典型上网行为特征。
2026-05-07 21:22:08
59
原创 滑动窗口(Sliding Window)解题心法:核心逻辑与最大 / 最小问题的区别
本文总结了滑动窗口算法的核心逻辑与应用场景。该算法通过左右指针动态维护窗口,分为三步:扩展右指针、收缩左指针和记录答案。关键区别在于求最小和最大窗口时的记录时机不同: 求最小窗口(如最短子数组):在收缩左指针的循环内实时更新最小答案,因为每次收缩都可能得到更小的有效窗口。 求最大窗口(如最长子串):在窗口重新满足条件后,于循环外更新最大答案,因窗口越大越可能符合要求。 文中提供了通用代码模板,并举例说明如何调整记录时机来应对不同问题。
2026-05-07 15:44:59
399
原创 单调队列(Monotonic Queue):曾经沧海难为水,除却巫山不是云;虽有丘峦稍逊色,且留身后待山行
本文介绍了单调队列算法解决滑动窗口最大值问题的思路。首先分析了暴力解法(遍历每个窗口求最大值)的缺点——时间复杂度O(nk)导致大数据量超时。随后提出最优解单调队列法,通过维护一个单调递减队列,在遍历数组时动态淘汰无用元素、保留候选值,保证队头始终是当前窗口最大值。该方法将时间复杂度优化至O(n),空间复杂度O(k)。文章用诗句形象比喻算法核心:淘汰永远无法成为最大值的元素,保留次大值作为候选。最终代码简洁高效,完美解决了滑动窗口最大值问题。
2026-05-06 15:48:24
428
原创 珂朵莉树(Chtholly Tree):不逐点保存一切,而是把相同的记忆压成片段
珂朵莉树(Chtholly Tree)是算法竞赛中处理区间问题的暴力美学神器,其命名源自动漫《末日时在做什么?》女主角珂朵莉,融合了二次元情怀与技术实用性。诞生于2018年Codeforces竞赛题CF896C,珂朵莉树通过合并相同值区间优化操作效率,核心操作包括分裂(split)和合并(merge)。其Python实现基于列表和二分查找,支持区间赋值、区间加、区间查询等功能,凭借“先分裂、再操作、后合并”的逻辑,在随机数据下表现高效。
2026-05-04 19:55:48
469
原创 零剪辑门槛!Pixelle-Video:AI全自动短视频引擎
Pixelle-Video:开源AI短视频自动生成工具 Pixelle-Video是一款开源免费的AI全自动短视频引擎,支持云端部署,零技术门槛。用户只需输入主题,即可自动完成文案、配图、语音、BGM及视频合成全流程。
2026-05-02 22:08:38
584
原创 告别AI生成UI的同质化!用 awesome-design-md 轻松get大厂级界面
《给AI注入设计上下文:用Design Markdown解决UI生成痛点》介绍了awesome-design-md开源项目如何通过纯文本的Design Markdown文件,为AI生成UI提供清晰的设计规范。文章指出AI生成UI的四大痛点(同质化、风格漂移、沟通成本高、设计资源匮乏)本质是缺乏设计上下文,而Design Markdown通过55+大厂设计模板(如Stripe、Vercel等)完美解决这些问题。使用只需三步:获取模板、放入项目根目录、给AI下达指令,即可生成风格统一、专业感强的界面。实测显示,
2026-05-01 22:15:37
482
原创 基于零代码平台的订单利润分流数据加工
本实验基于助睿零代码数据集成平台(ETL平台),完成订单利润分流处理任务。实验通过可视化拖拽方式构建数据处理流程,主要步骤包括:1)登录实验平台并创建项目;2)同步MySQL数据源;3)新建转换流,使用表输入组件读取订单和产品数据;4)通过记录集连接实现两表关联;5)使用字段选择、过滤记录等组件进行数据处理;6)将盈利和亏损订单分别输出到Excel文件。实验帮助学生掌握ETL平台的基本操作和数据处理流程。
2026-04-30 18:50:46
1246
原创 【Python 实战】保姆级教程!学校 CSV 数据批量导入 PostgreSQL 数据持久化全流程(附完整源码 + 踩坑详解)
这篇文章介绍了如何使用Python的Pandas和Psycopg2库将学校7类业务CSV数据批量导入PostgreSQL数据库的完整解决方案。主要内容包括: 技术栈:Python+Pandas+Psycopg2实现数据清洗和入库 核心流程:数据库连接→表结构初始化→CSV读取→数据清洗→批量插入 关键处理: 多编码兼容读取CSV 时间/数值格式标准化 空值和异常值处理 批量插入优化与错误定位。
2026-04-23 10:49:56
791
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅