自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Python数据挖掘

传道授业解惑

  • 博客(644)
  • 收藏
  • 关注

原创 《算法岗面试宝典》正式发布

薪资真香、技术难度真大、要求真的很全面,但不是没有方法可循、可借鉴的。业务知识 + 专业知识 + 编程基础能力+刷题(LeetCode/剑指Offer) + 项目 + 实习 + 竞赛 +顶会/顶刊+学校针对岗位要求,我在知识星球和《算法面试宝典》中详细给大家介绍。让加入的朋友了解最前沿的知识点,有问题给予专业指导,少栽跟头。这份《算法面试宝典》,文档字数 30w+,我们也在一直更新,涵盖算法岗的方方面面,相信你读完并思考实践后,你一定能有所收获。

2024-09-22 08:25:45 824 1

原创 《机器学习算法实战宝典》正式发布!

大家好,我是城哥,最近写了两本资料,一本是:《机器学习算法面试宝典》正式发布!,内容是面试技巧、面试真题、常考题等。今天分享的《机器学习算法实战宝典》(以下简称《算法实战宝典》)内容侧重公司级的实操、实战。篇幅有限,《算法实战宝典》部分目录如下:《算法实战宝典》的优点:1、《算法实战宝典》会定期更新迭代,一次订阅、后续无需额外费用。2、《算法实战宝典》内容经过城哥精挑细选,项目包括:公司级项目和kaggle 大赛项目,内容质量有保障及有代码、数据、可复现。3、《算法实战宝典》对内容进行系统化梳理,自成体系,

2024-04-05 08:53:47 861 3

原创 《机器学习算法面试宝典》正式发布!

大家好,历时半年的梳理和修改,《机器学习算法面试宝典》(以下简称《算法面试宝典》)终于可以跟大家见面了。近年来,很多理科专业学生也纷纷转入算法赛道,特别是最近 ChatGPT 的爆火,推动了AI 技术圈对大模型的研究热情,AI 就业市场人数越来越多,算法岗已成进入了竞争难度第一梯度(超级卷)的岗位。

2024-04-05 08:29:20 917

原创 这一次,我准备了 20节 PyTorch 中文课程

本书是我利用工作之余大概3个月写成的,大部分读者应该在20天可以完全学会。预计每天花费的学习时间在30分钟到2个小时之间。当然,本书也非常适合作为 Pytorch 的工具手册在工程落地时作为范例库参考。日期学习内容内容难度预计学习时间更新状态B站讲解一、Pytorch的建模流程⭐️0hour✅day11-1,结构化数据建模流程范例⭐️⭐️⭐️1hour✅day21-2,图片数据建模流程范例⭐️⭐️⭐️⭐️2hour✅day31-3,文本数据建模流程范例⭐️⭐️⭐️⭐️⭐️。

2023-12-26 22:35:00 4039 1

原创 整理了上千个 Python 工具库,涵盖24个大方向

Python 生态,向来以各种类库齐全而闻名,这也是这门语言如此受欢迎的重要原因。今天就给大家分享一下这几天的战果,宵衣旰食,不眠不休的整理了近千个 Python 库,

2022-12-31 22:55:30 16869 13

原创 用通俗易懂的方式讲解:主成分分析(PCA)算法及案例(Python 代码)

在上面的PCA算法中,我们假设存在一个线性的超平面,可以让我们对数据进行投影。但是有些时候,数据不是线性的,不能直接进行PCA降维。这里就需要用到和支持向量机一样的核函数的思想,先把数据集从 n 维映射到线性可分的高维 N>n,然后再从N维降维到一个低维度 n’,这里的维度之间满足 n’ < n< N。使用了核函数的主成分分析一般称之为核主成分分析(Kernelized PCA,以下简称 KPCA。假设高维空间的数据是由 n 维空间的数据通过映射 Φ 产生)。

2022-10-06 12:36:41 61245 21

原创 用通俗易懂的方式讲解:lightGBM 算法及案例(Python 代码)

AdaBoost是一种提升树的方法,和三个臭皮匠,赛过诸葛亮的道理一样。(1) 如何改变训练数据的权重或概率分布提高前一轮被弱分类器错误分类的样本的权重,降低前一轮被分对的权重(2) 如何将弱分类器组合成一个强分类器,亦即,每个分类器,前面的权重如何设置采取”多数表决”的方法.加大分类错误率小的弱分类器的权重,使其作用较大,而减小分类错误率大的弱分类器的权重,使其在表决中起较小的作用。lightGBM是2017年1月,微软在GItHub上开源的一个新的梯度提升框架。

2022-10-05 12:58:52 9239 1

原创 用通俗易懂的方式讲解: xgboost 算法及案例(Python 代码)

把树拆分成结构部分q和叶子权重部分w。树的复杂度函数和样例:定义树的结构和复杂度的原因很简单,这样就可以衡量模型的复杂度了啊,从而可以有效控制过拟合。目标函数通过二阶泰勒展开式做近似定义了树的复杂度,并应用到目标函数中分裂结点处通过结构打分和分割损失动态生长分裂结点的候选集合通过一种分布式Quantile Sketch得到可以处理稀疏、缺失数据可以通过特征的列采样防止过拟合。

2022-10-05 12:37:04 5984 1

原创 用通俗易懂的方式讲解: GBDT算法及案例(Python 代码)

GBDT是Gradient Boosting Decision Tree(梯度提升树)的缩写。GBDT算法也是一种非常实用的Boosting算法,它与AdaBoost算法的区别在于:AdaBoost算法根据分类效果调整权重并不断迭代,最终生成强学习器;GBDT算法则将损失函数的负梯度作为残差的近似值,不断使用残差迭代和拟合回归树,最终生成强学习器。简单来说,AdaBoost算法是调整权重,而GBDT算法则是拟合残差。通过一个简单案例理解GBDT算法的核心思想。下表中有4个样本客户的数据,特征变量X1为年龄,

2022-10-05 12:14:06 6797 3

原创 用通俗易懂的方式讲解: 随机森林及案例(Python 代码)

集成学习模型使用一系列弱学习器(也称为基础模型或基模型)进行学习,并将各个弱学习器的结果进行整合,从而获得比单个学习器更好的学习效果。集成学习模型的常见算法有Bagging算法和Boosting算法两种。Bagging算法的典型机器学习模型为随机森林模型,而Boosting算法的典型机器学习模型则为AdaBoost、GBDT、XGBoost和LightGBM模型。Bagging算法的原理类似投票,每个弱学习器都有一票,最终根据所有弱学习器的投票,按照“少数服从多数”的原则产生最终的预测结果,如下图所示。

2022-10-05 11:31:30 13323

原创 用通俗易懂的方式讲解:决策树模型及案例(Python 代码)

基本原理是通过对一系列问题进行if/else的推导,最终实现相关决策。决策树模型的一个实例:决策树的概念并不复杂,主要是通过连续的逻辑判断得出最后的结论,其关键在于如何建立这样一棵“树”。

2022-10-05 11:08:08 26103 3

原创 用通俗易懂的方式讲解:逻辑回归模型及案例(Python 代码)

逻辑回归也被称为广义线性回归模型,它与线性回归模型的形式基本上相同,最大的区别就在于它们的因变量不同,如果是连续的,就是多重线性回归;如果是二项分布,就是Logistic回归。Logistic回归虽然名字里带“回归”,但它实际上是一种分类方法,主要用于二分类问题(即输出只有两种,分别代表两个类别),也可以处理多分类问题。

2022-10-05 10:25:33 7693 1

原创 基于 Echarts + Python 动态实时大屏真棒【附源码】

大家好,今天给大家分享,基于 Echarts + Python 动态实时大屏。

2022-09-29 22:28:51 1250

原创 有人把吴恩达老师的机器学习和深度学习做成了中文版

近年来 AI 越来越火,吴恩达是被公认的人工智能(AI)和机器学习领域国际最权威的学者,他一直致力于普及、宣传、推广 AI 教育,包括最前沿、最火爆的 AI 基础课程、深度学习课程等等。惠及全球超过 500w 的人工智能爱好者。吴恩达的机器学习基本涵盖了机器学习的主要知识点:线性回归、逻辑回归、支持向量机、神经网络、K-Means、异常检测等。课程中没有复杂的公式推导和理论分析,让机器学习初学者能够快速对整个机器学习知识点有比较整体的认识,便于快速入门。吴恩达开设了5门课组成的深度学习专项课程,掀起了一

2022-02-17 09:34:57 6407 1

原创 pygal:一款好用到爆的 Python 可视化利器,炫酷动态图轻松绘制

一般提及数据可视化,会Python的读者朋友可能第一时间想到的就是matplotlib模块或者是seaborn模块,而谈及绘制动态图表,大家想到的比较多的是Plotly或者是Pyecharts。注:文末提供Python数据可视化交流群,群内高手如云今天小编来为大家介绍另外一个绘制动态图表的模块 pygal,使用起来非常的便捷,而且绘制出来的图表也是十分的精湛好看,相比较seaborn等常用的模块相比,该模块的优点有:高度可定制,而且用法简单图表可交互性强图像可导出SVG格式(矢量图形)

2021-12-11 14:05:03 16297 6

原创 DeepMind加持的GNN框架正式开源,TensorFlow进入图神经网络时代

谷歌在垃圾邮件检测、流量估计以及YouTube内容标签等环境中使用了一种强大的工具GNN(图神经网络)。11月18日,谷歌联合DeepMind对外开源TensorFlow GNN工具,助力流量预测、谣言和假新闻检测、疾病传播建模、物理模拟等领域的基础研究。11月18日,谷歌联合DeepMind发布了TensorFlow GNN(图神经网络)。目前,谷歌已经在诸如垃圾邮件检测、流量估计以及YouTube内容标签等环境中用上了这个库的早期版本。为什么要用GNN?图(Graph)是用于表示对象之间.

2021-11-23 14:01:52 2421

原创 超过53亿!《长津湖》为什么这么火爆?我用 Python 来分析猫眼影评

对于这个十一黄金周的电影市场,绝对是《长津湖》的天下,目前票房就已经突破53亿,大有奋起直追《战狼2》的尽头。而且口碑也是相当的高,猫眼评分高达9.5,绝对的票房口碑双丰收啊下面我们就通过爬取猫眼的电影评论,进行相关的可视化分析,看看为什么这部电影是如此的受欢迎,最后还进行了简单的票房预测,你一定不能错过哦,欢迎收藏学习,点赞支持,喜欢技术交流的可以文末技术交流群。数据获取猫眼评论爬取,还是那么老一套,直接构造 API 接口信息即可url = "https://m.maoyan.com/mmdb/

2021-10-25 22:15:35 1896 4

原创 10000+字,一篇不可多得的 Python 数据可视化 “保姆级“ 攻略!

今天让我们看一下使用Python进行数据可视化的主要库,以及可以使用它们完成的所有类型的图表。我们还将看到建议在每种情况下,使用哪个库以及每个库的独特功能。我们将从最基本的可视化开始,直接查看数据,然后继续绘制图表,最后制作交互式图表。我们将使用两个数据集来适应本文中显示的可视化效果,数据集可通过下方链接进行下载。数据集:github.com/albertsl/datasets这些数据集都是与人工智能相关的三个术语(数据科学,机器学习和深度学习)在互联网上搜索流行度的数据,从搜索引擎中提取而来。该数据集包含

2021-10-19 09:17:22 507

原创 OpenClaw 战斗力翻倍:10个必装技能一次给你配齐

打开页面、识别按钮、自动填表、翻页抓数据,你只要告诉它目标,剩下的它自己搞定。登录状态还能保存,下次继续用。触发方式很自然,直接跟它说"记住Alice负责这个项目",或者"显示项目X的所有成员",它就知道该怎么存、怎么查。它会主动记住你交代过的背景,预判你下一步要干什么,就算上下文快满了,它也会自动把关键信息存下来,重启会话还能恢复状态。电脑没毛病,是你没开游戏,OpenClaw真正的玩法,在Skill。搜索、安装、更新、发布技能,跟OpenClaw说一声就行,还能把自己做的Skill发布出去让别人用。

2026-04-04 16:01:48 375

原创 蔚来多模态大模型算法岗,薪资真让人羡慕!

最近春招开始了。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新人如何快速入门算法岗、如何准备面试攻略、面试常考点、大模型项目落地经验分享等热门话题进行了深入的讨论。

2026-04-04 15:56:04 487

原创 OpenClaw 战斗力翻倍:30 个必装技能一次给你配齐

OpenClaw 的技能市场(Skill Store)目前已经拥有超过个技能。很多用户装了一堆技能,结果发现常用的就那么几个,其他的不仅占资源,还容易造成指令冲突。

2026-03-18 13:57:24 516

原创 面试居然被问到 OpenClaw 的原理,当场直接懵了。。。

最近春招开始了,不过时间还是有点段。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新人如何快速入门算法岗、如何准备面试攻略、面试常考点、大模型项目落地经验分享等热门话题进行了深入的讨论。最近面试一些搜广推+大模型的岗位,在项目技术问题方面问的都差不多。唯一让我感觉意外的是openclaw也被问到了,今天按照面试题类别总结了一下,分享给大家。

2026-03-18 13:51:48 544

原创 13 万人收藏的 Openclaw 登顶GitHub No.1!附上超绝性价比部署指南!(保姆级)

这次的模型选用Kimi K2.5,能力是毋庸置疑的。而且通过实际的一些任务跑下来,确实非常的不错。实际测试使用还是比较多的,但从 Kimi 使用额度上看感觉 7 天都用不完。Openclaw 是 AI Agent 走向平民化、实用化的一个现实产物。通过它你可以完全拥有、完全掌控、甚至可自主魔改的AI 管家。未来的 AI 形态,一定是 Agent(智能体)的天下。它们必须能感知环境、能使用工具、能自动规划多步任务。

2026-03-03 08:52:53 806

原创 利用闲置Mac电脑从零部署 OpenClaw 教程

最近春招开始了。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新人如何快速入门算法岗、如何准备面试攻略、面试常考点、大模型项目落地经验分享等热门话题进行了深入的讨论。总结链接:近日,OpenClaw 全网爆火,可能也刷爆了各位的朋友圈。OpenClaw 简单来说就是一个可以帮你自动操作电脑的 AI Agent,你能用电脑干什么他就能帮你做什么。: 它能直接调用 Shell 命令、操作本地文件、控制浏览器。你一句话,它就能帮你整理下载文件夹,或者自动化办公。

2026-03-03 08:49:21 718

原创 快手大模型算法岗面试,问的巨细。。。

最近春招开始了。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新人如何快速入门算法岗、如何准备面试攻略、面试常考点、大模型项目落地经验分享等热门话题进行了深入的讨论。总结链接:bg:头部C9本硕,有中厂大模型应用相关实习没想到,在秋招快结束时拿到了Offer,面试流程比预期要快的多,不愧是大厂。

2026-03-03 08:43:16 398

原创 《大模型面试宝典》(2026版) 正式发布!

2025年12月11日,OpenAI发布GPT-5.2,这次升级确实挺猛的,核心亮点就是‌更专业、更高效、更可靠‌,直接瞄准了办公、开发这些实际场景。同样国内模型应用加速迭代落地。12月1日,豆包手机助手首个OS级合作落地,实现AI像人一样操作手机,这种深度参与将催生更多创新应用场景。同时,DeepSeek-V3.2正式发布,强化Agent能力、融入思考推理。经历这两年的你追我赶,大模型已进入深耕细作阶段,重心从试点转向系统化落地。

2026-01-21 19:51:40 239

原创 小米秋招算法二面:GSPO和GRPO的区别?

一个长度为 500 的序列,其未经归一化的 importance ratio 几乎必然会比一个长度为 50 的序列的 ratio 数量级不同,这意味着,长序列和短序列的 importance ratio 根本不具有可比性。大家熟知的是 GRPO 结果监督中对奖励的硬估计(数学题对就是 1,错就是 0),但 GRPO 保持了对过程监督的兼容,逐 token 的奖励并没有被抛弃,毕竟在当时过程监督就是大行其道。它将一个可能跨越多个数量级的、剧烈波动的乘积,转换为了一个在 1 附近波动的、更稳定的均值。

2025-10-22 16:23:23 1281

原创 LLM 评估体系详解:从多轮对话到 RAG 与 AI Agent 的落地评估

是时候准备面试和实习了。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。。智能体评估主要是测试你的 LLM 应用,以确保其性能保持一致。这不是最令人兴奋的话题,但越来越多的公司开始关注它。因此,值得深入研究应该追踪哪些指标来实际衡量这种性能。在推送任何更改时进行适当的评估也有助于确保一切正常运行。

2025-10-22 10:35:45 832 1

原创 快手算法一面:Prefix LM 和 Causal LM 到底差在哪?

Causal LM,全称叫“自回归语言模型”,它的核心思想特别简单:当前这个词,只能看左边的词,右边一个也不能看。今天我就来带大家好好捋一下,什么是 Causal LM,什么又是 Prefix LM,它们到底差在哪,用在哪,怎么选。这种设计,其实就是在让模型兼顾“理解能力”和“生成能力”。但后面的“生成部分”就必须自回归了,比如要生成“D E”,那“D”不能看“E”,“E”只能看“A B C D”。前缀这一段,模型是可以看到所有词的,比如“A B C”,这仨词之间是可以互相注意的,相当于是“读懂上下文”。

2025-10-21 22:24:09 1039

原创 美团面试官问:RAG有哪些优化手段?

如果要在面试中浓缩成一分钟回答,可以这么说👇检索器优化:混合检索、两阶段检索、查询改写;索引优化:语义分块、元数据、GraphRAG;生成优化:Prompt设计、事实一致性验证、输出过滤。我在项目中主要通过Hybrid Search + Reranker的方式提升了检索精度,同时结合语义分块与Prompt模板显著降低了幻觉率。这种答法既系统、又体现了实践深度。在大模型面试中,RAG是最常见的工程落地话题之一,能答出“RAG是什么”是基础,能答出“RAG怎么优化”才是真正的实力。

2025-10-21 21:50:27 904

原创 【面试常考】手撕大模型Attention:MLA、MHA、MQA与GQA

是时候准备面试和实习了不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。。

2025-05-24 16:52:04 4686 1

原创 北京内推 | 字节跳动Data-电商团队招聘多模态大模型算法实习生

在这个团队,我们不仅要通过推荐和搜索算法帮助用户买到感兴趣的好东西,也要通过风控算法和智能平台治理算法去甄别违规行为,保护用户的购物体验;有大模型/多模态大模型(包括不限于llama/llava/Qwen等)学习基础、大模型训练基础(SFT等)、有相关项目比赛经历优先。1. 电商场景下多模态大模型的技术探索,包括不限于多模态大模型的PE、SFT、CoT/RL,并实现业务落地;最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。非26届应届生,27届应届生优先;

2025-05-24 15:42:09 583

原创 小白学大模型:多模态 Qwen2.5-VL

Qwen-VL 是阿里云研发的大规模视觉语言模型(Large Vision Language Model, LVLM)。Qwen-VL 可以以图像、文本、检测框作为输入,并以文本和检测框作为输出。Qwen-VL 系列模型性能强大,具备多语言对话、多图交错对话等能力,并支持中文开放域定位和细粒度图像识别与理解。

2025-05-10 16:48:29 1754

原创 小白学大模型:从零实现 LLM语言模型

在当今人工智能领域,大型语言模型(LLM)的开发已经成为一个热门话题。这些模型通过学习大量的文本数据,能够生成自然语言文本,完成各种复杂的任务,如写作、翻译、问答等。

2025-05-10 16:43:57 1228

原创 Label Studio:一个优秀的开源大模型数据标注平台

在LLM(大型语言模型)时代,数据标注质量直接决定了模型的智能上限。作为开源数据标注领域的标杆工具,Label Studio 凭借其多模态支持能力与高度可定制化的特性,正成为大模型训练中数据工程的基石。从文本三元组关系抽提到视频对象追踪,从低资源语言的语音标注到医学影像的像素级分割,Label Studio 通过统一的交互界面打破了传统标注工具的场景局限。

2025-04-12 16:58:24 1875

原创 图解混合专家(MoE)模型

在探索最新的大语言模型(LLM)时,“MoE”这一术语频繁出现在各种标题之中。DeepSeek-V3便是一个实力强劲的混合专家(MoE)模型,其总参数量高达6710亿,且在处理每个标记(token)时,能够智能地激活约370亿的参数,实现高效计算。同样引人注目的还有Qwen2.5-Max,这一大规模MoE模型通过精心设计的监督微调(SFT)流程以及基于人类反馈的强化学习(RLHF)方法进行了后训练,大大提升了其性能与实用性。这个“ MoE ”代表什么?为什么这么多大语言模型(LLM)都在使用它?

2025-04-12 16:50:06 1382

原创 基于 Deepseek LLM 本地知识库搭建开源方案(AnythingLLM、Cherry、Ragflow、Dify)

写在前面博文内容涉及基于 Deepseek LLM 的本地知识库搭建使用 ollama 部署 Deepseek-R1 LLM知识库能力通过 Ragflow、Dify 、AnythingLLM、Cherry 提供。

2025-03-29 23:12:51 1535 1

原创 《算法岗面试宝典》重磅发布!

薪资真香、技术难度真大、要求真的很全面,但不是没有方法可循、可借鉴的。业务知识 + 专业知识 + 编程基础能力+刷题(LeetCode/剑指Offer) + 项目 + 实习 + 竞赛 +顶会/顶刊+学校针对岗位要求,我在知识星球和《算法面试宝典》中详细给大家介绍。让加入的朋友了解最前沿的知识点,有问题给予专业指导,少栽跟头。这份《算法面试宝典》,文档字数 30w+,我们也在一直更新,涵盖算法岗的方方面面,相信你读完并思考实践后,你一定能有所收获。

2025-03-29 22:43:44 678 2

原创 10个PyTorch CUDA编程小技巧,实现高效GPU计算

掌握 PyTorch 中的 CUDA 技术,是开启高性能深度学习的重要一步。当你理解并应用这些技术时,能够有效提升模型的训练和推理速度。高效利用GPU,不仅依赖强大的硬件,更在于合理的编码实践!在后续使用 CUDA 和 PyTorch 的过程中,要持续探索和尝试。GPU 计算领域持续发展,不断更新最佳实践,紧跟这些最新进展,会为你的深度学习项目带来更好的性能表现。

2025-03-23 09:52:44 1028

原创 100个Pandas小技巧,让你精通Python数据分析

使用将函数应用于每个分组。使用将自定义函数应用于每个元素。使用df.apply()按元素应用函数。

2025-03-23 09:39:06 1098

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除