自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Python数据挖掘

传道授业解惑

  • 博客(613)
  • 收藏
  • 关注

原创 《机器学习算法实战宝典》正式发布!

大家好,我是城哥,最近写了两本资料,一本是:《机器学习算法面试宝典》正式发布!,内容是面试技巧、面试真题、常考题等。今天分享的《机器学习算法实战宝典》(以下简称《算法实战宝典》)内容侧重公司级的实操、实战。篇幅有限,《算法实战宝典》部分目录如下:《算法实战宝典》的优点:1、《算法实战宝典》会定期更新迭代,一次订阅、后续无需额外费用。2、《算法实战宝典》内容经过城哥精挑细选,项目包括:公司级项目和kaggle 大赛项目,内容质量有保障及有代码、数据、可复现。3、《算法实战宝典》对内容进行系统化梳理,自成体系,

2024-04-05 08:53:47 467

原创 《机器学习算法面试宝典》正式发布!

大家好,历时半年的梳理和修改,《机器学习算法面试宝典》(以下简称《算法面试宝典》)终于可以跟大家见面了。近年来,很多理科专业学生也纷纷转入算法赛道,特别是最近 ChatGPT 的爆火,推动了AI 技术圈对大模型的研究热情,AI 就业市场人数越来越多,算法岗已成进入了竞争难度第一梯度(超级卷)的岗位。

2024-04-05 08:29:20 597

原创 这一次,我准备了 20节 PyTorch 中文课程

本书是我利用工作之余大概3个月写成的,大部分读者应该在20天可以完全学会。预计每天花费的学习时间在30分钟到2个小时之间。当然,本书也非常适合作为 Pytorch 的工具手册在工程落地时作为范例库参考。日期学习内容内容难度预计学习时间更新状态B站讲解一、Pytorch的建模流程⭐️0hour✅day11-1,结构化数据建模流程范例⭐️⭐️⭐️1hour✅day21-2,图片数据建模流程范例⭐️⭐️⭐️⭐️2hour✅day31-3,文本数据建模流程范例⭐️⭐️⭐️⭐️⭐️。

2023-12-26 22:35:00 2885 1

原创 整理了上千个 Python 工具库,涵盖24个大方向

Python 生态,向来以各种类库齐全而闻名,这也是这门语言如此受欢迎的重要原因。今天就给大家分享一下这几天的战果,宵衣旰食,不眠不休的整理了近千个 Python 库,

2022-12-31 22:55:30 14117 13

原创 用通俗易懂的方式讲解:主成分分析(PCA)算法及案例(Python 代码)

在上面的PCA算法中,我们假设存在一个线性的超平面,可以让我们对数据进行投影。但是有些时候,数据不是线性的,不能直接进行PCA降维。这里就需要用到和支持向量机一样的核函数的思想,先把数据集从 n 维映射到线性可分的高维 N>n,然后再从N维降维到一个低维度 n’,这里的维度之间满足 n’ < n< N。使用了核函数的主成分分析一般称之为核主成分分析(Kernelized PCA,以下简称 KPCA。假设高维空间的数据是由 n 维空间的数据通过映射 Φ 产生)。

2022-10-06 12:36:41 23406 10

原创 用通俗易懂的方式讲解:lightGBM 算法及案例(Python 代码)

AdaBoost是一种提升树的方法,和三个臭皮匠,赛过诸葛亮的道理一样。(1) 如何改变训练数据的权重或概率分布提高前一轮被弱分类器错误分类的样本的权重,降低前一轮被分对的权重(2) 如何将弱分类器组合成一个强分类器,亦即,每个分类器,前面的权重如何设置采取”多数表决”的方法.加大分类错误率小的弱分类器的权重,使其作用较大,而减小分类错误率大的弱分类器的权重,使其在表决中起较小的作用。lightGBM是2017年1月,微软在GItHub上开源的一个新的梯度提升框架。

2022-10-05 12:58:52 6312 1

原创 用通俗易懂的方式讲解: xgboost 算法及案例(Python 代码)

把树拆分成结构部分q和叶子权重部分w。树的复杂度函数和样例:定义树的结构和复杂度的原因很简单,这样就可以衡量模型的复杂度了啊,从而可以有效控制过拟合。目标函数通过二阶泰勒展开式做近似定义了树的复杂度,并应用到目标函数中分裂结点处通过结构打分和分割损失动态生长分裂结点的候选集合通过一种分布式Quantile Sketch得到可以处理稀疏、缺失数据可以通过特征的列采样防止过拟合。

2022-10-05 12:37:04 4288 1

原创 用通俗易懂的方式讲解: GBDT算法及案例(Python 代码)

GBDT是Gradient Boosting Decision Tree(梯度提升树)的缩写。GBDT算法也是一种非常实用的Boosting算法,它与AdaBoost算法的区别在于:AdaBoost算法根据分类效果调整权重并不断迭代,最终生成强学习器;GBDT算法则将损失函数的负梯度作为残差的近似值,不断使用残差迭代和拟合回归树,最终生成强学习器。简单来说,AdaBoost算法是调整权重,而GBDT算法则是拟合残差。通过一个简单案例理解GBDT算法的核心思想。下表中有4个样本客户的数据,特征变量X1为年龄,

2022-10-05 12:14:06 4716 1

原创 用通俗易懂的方式讲解: 随机森林及案例(Python 代码)

集成学习模型使用一系列弱学习器(也称为基础模型或基模型)进行学习,并将各个弱学习器的结果进行整合,从而获得比单个学习器更好的学习效果。集成学习模型的常见算法有Bagging算法和Boosting算法两种。Bagging算法的典型机器学习模型为随机森林模型,而Boosting算法的典型机器学习模型则为AdaBoost、GBDT、XGBoost和LightGBM模型。Bagging算法的原理类似投票,每个弱学习器都有一票,最终根据所有弱学习器的投票,按照“少数服从多数”的原则产生最终的预测结果,如下图所示。

2022-10-05 11:31:30 10177

原创 用通俗易懂的方式讲解:决策树模型及案例(Python 代码)

基本原理是通过对一系列问题进行if/else的推导,最终实现相关决策。决策树模型的一个实例:决策树的概念并不复杂,主要是通过连续的逻辑判断得出最后的结论,其关键在于如何建立这样一棵“树”。

2022-10-05 11:08:08 16849 2

原创 用通俗易懂的方式讲解:逻辑回归模型及案例(Python 代码)

逻辑回归也被称为广义线性回归模型,它与线性回归模型的形式基本上相同,最大的区别就在于它们的因变量不同,如果是连续的,就是多重线性回归;如果是二项分布,就是Logistic回归。Logistic回归虽然名字里带“回归”,但它实际上是一种分类方法,主要用于二分类问题(即输出只有两种,分别代表两个类别),也可以处理多分类问题。

2022-10-05 10:25:33 5091

原创 基于 Echarts + Python 动态实时大屏真棒【附源码】

大家好,今天给大家分享,基于 Echarts + Python 动态实时大屏。

2022-09-29 22:28:51 1018

原创 有人把吴恩达老师的机器学习和深度学习做成了中文版

近年来 AI 越来越火,吴恩达是被公认的人工智能(AI)和机器学习领域国际最权威的学者,他一直致力于普及、宣传、推广 AI 教育,包括最前沿、最火爆的 AI 基础课程、深度学习课程等等。惠及全球超过 500w 的人工智能爱好者。吴恩达的机器学习基本涵盖了机器学习的主要知识点:线性回归、逻辑回归、支持向量机、神经网络、K-Means、异常检测等。课程中没有复杂的公式推导和理论分析,让机器学习初学者能够快速对整个机器学习知识点有比较整体的认识,便于快速入门。吴恩达开设了5门课组成的深度学习专项课程,掀起了一

2022-02-17 09:34:57 5606 1

原创 pygal:一款好用到爆的 Python 可视化利器,炫酷动态图轻松绘制

一般提及数据可视化,会Python的读者朋友可能第一时间想到的就是matplotlib模块或者是seaborn模块,而谈及绘制动态图表,大家想到的比较多的是Plotly或者是Pyecharts。注:文末提供Python数据可视化交流群,群内高手如云今天小编来为大家介绍另外一个绘制动态图表的模块 pygal,使用起来非常的便捷,而且绘制出来的图表也是十分的精湛好看,相比较seaborn等常用的模块相比,该模块的优点有:高度可定制,而且用法简单图表可交互性强图像可导出SVG格式(矢量图形)

2021-12-11 14:05:03 15037 6

原创 DeepMind加持的GNN框架正式开源,TensorFlow进入图神经网络时代

谷歌在垃圾邮件检测、流量估计以及YouTube内容标签等环境中使用了一种强大的工具GNN(图神经网络)。11月18日,谷歌联合DeepMind对外开源TensorFlow GNN工具,助力流量预测、谣言和假新闻检测、疾病传播建模、物理模拟等领域的基础研究。11月18日,谷歌联合DeepMind发布了TensorFlow GNN(图神经网络)。目前,谷歌已经在诸如垃圾邮件检测、流量估计以及YouTube内容标签等环境中用上了这个库的早期版本。为什么要用GNN?图(Graph)是用于表示对象之间.

2021-11-23 14:01:52 2251

原创 超过53亿!《长津湖》为什么这么火爆?我用 Python 来分析猫眼影评

对于这个十一黄金周的电影市场,绝对是《长津湖》的天下,目前票房就已经突破53亿,大有奋起直追《战狼2》的尽头。而且口碑也是相当的高,猫眼评分高达9.5,绝对的票房口碑双丰收啊下面我们就通过爬取猫眼的电影评论,进行相关的可视化分析,看看为什么这部电影是如此的受欢迎,最后还进行了简单的票房预测,你一定不能错过哦,欢迎收藏学习,点赞支持,喜欢技术交流的可以文末技术交流群。数据获取猫眼评论爬取,还是那么老一套,直接构造 API 接口信息即可url = "https://m.maoyan.com/mmdb/

2021-10-25 22:15:35 1622 4

原创 10000+字,一篇不可多得的 Python 数据可视化 “保姆级“ 攻略!

今天让我们看一下使用Python进行数据可视化的主要库,以及可以使用它们完成的所有类型的图表。我们还将看到建议在每种情况下,使用哪个库以及每个库的独特功能。我们将从最基本的可视化开始,直接查看数据,然后继续绘制图表,最后制作交互式图表。我们将使用两个数据集来适应本文中显示的可视化效果,数据集可通过下方链接进行下载。数据集:github.com/albertsl/datasets这些数据集都是与人工智能相关的三个术语(数据科学,机器学习和深度学习)在互联网上搜索流行度的数据,从搜索引擎中提取而来。该数据集包含

2021-10-19 09:17:22 363

原创 最强全面总结,十大集成学习模型!!!

Bagging 通过在原始数据集的随机子集上训练多个基本模型,并对它们的预测结果进行平均或投票来减少方差。

2024-04-25 23:12:42 1139

原创 梳理 Pytorch 19个方面,70个核心操作全总结!

掌握以上19种操作方法可以让你更好地使用 PyTorch 进行深度学习任务。这些操作方法涵盖了张量的创建、变换、数学运算、梯度计算、模型构建、数据处理等方面,是使用 PyTorch 进行深度学习的基础操作。

2024-04-25 23:05:58 881

原创 被狠狠拷打!想冲 PDD 机器学习算法岗,一面直接挂了。。。

节前,我们社群组织了一场技术&面试讨论会,邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学,针对新手如何机器学习算法、企业级落地场景、大模型的发展趋势与落地实践、新人该如何备考、面试常考点等热门话题进行了深入的讨论。今天我整理星球群一个同学的面试PDD的面试题,分享给大家,希望对后续找工作的有所帮助。被pdd算法拷打了,面试官非常儒雅随和,虽然我在那胡言乱语 还是能给反馈= 可惜我太菜了。

2024-04-09 21:46:30 530

原创 面了美团和 OPPO 的机器学习算法岗,居然都问了大模型相关问题。。。

节前,我们社群组织了一场技术&面试讨论会,邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学,针对新手如何机器学习算法、企业级落地场景、大模型的发展趋势与落地实践、新人该如何备考、面试常考点等热门话题进行了深入的讨论。今天我整理了一个同学的机器学习算法岗面试题,分享给大家,希望对后续找工作的有所帮助。

2024-04-05 09:25:20 859

原创 一文告诉你如何用 Python 操作 ChatGPT

ChatGPT 相信大家都用过,你觉得它给你的工作带来了多少帮助呢?目前我们使用 ChatGPT 的方式是通过浏览器访问 chat.openai.com,然后输入问题,就像下面这样。除了网页之外,ChatGPT 还提供了 API 接口,让我们可以在程序中访问 GPT 模型。需要注意的是,如果使用网页,那么 GPT 3.5 是免费的,GPT 4 则是一个月收费 20 美元。但如果要通过 API 来访问 GPT 模型,那么不管什么版本都是收费的,至于费用多少则取决于 token 的数量。

2024-03-24 09:25:40 1575

原创 通透讲解!Pytorch 十大核心操作全总结!!!

可以通过继承。

2024-03-16 09:55:21 9677

原创 效率真高!众安保险数据分析岗(实习)面试通过了,分享一下面试经验!

最近,我们社群组织了一场技术&面试讨论会,邀请了一些互联网大厂同学、参加社招和校招面试的同学,针对新手如何入门数据分析、机器学习算法、该如何备战、面试常考点分享等热门话题进行了深入的讨论。基于社群的讨论,今天我整理了一个同学的面试题,分享给大家,希望对后续找工作的有所帮助。今天面了众安保险的数据分析岗,感觉很顺利,但是拢共就面了20min,还是有点没底更新一下:过啦,当天下午三点面 五点就通知通过了!!效率真高。面试流程:自我介绍过去实习中影响最深刻的一个项目两个简单的SQL,口述就行。

2024-03-02 21:54:54 1179

原创 推荐收藏!分享 PyTorch 中一些高级的索引和选择操作技巧

关于 Pytorch ,我之前分享过很多篇,至于为什么今年这么重视 Pytorch ,熟悉大模型、算法的小伙伴都应该知道。大部分的大模型开发语言都是Pytorch。废话不多说。转入正题。在某些情况下,你可能需要使用 PyTorch 进行一些高级的索引和选择操作,例如回答这样的问题:“如何根据张量B中指定的索引来从张量A中选择元素?在本文中,我们将介绍三种最常见的用于此类任务的方法,即torch.index_select、torch.gather和torch.take。我们将详细解释它们,并对它们进行对比。

2024-03-02 17:20:03 1058

原创 面了字节跳动的数据挖掘岗,感觉真的很难。。。

节前,我们社群组织了一场技术&面试讨论会,邀请了一些互联网大厂同学、参加社招和校招面试的同学,针对新手如何入门机器学习算法、该如何备战、面试常考点分享等热门话题进行了深入的讨论。基于社群的讨论,今天我整理了一个同学的面试题,分享给大家,希望对后续找工作的有所帮助。

2024-02-27 22:42:35 942

原创 面了美团机器学习算法岗,算法真卷啊。。。

节前,我们社群组织了一场机器学习算法岗技术&面试讨论会,邀请了一些互联网大厂同学、参加社招和校招面试的同学,针对机器学习算法岗技术趋势、项目经验分享、新手如何入门机器学习算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。基于社群的讨论,今天我整理一下机器学习算法岗方向面试题,分享给大家,希望对后续找工作的有所帮助。

2024-02-27 21:39:53 1061

原创 【机器学习算法岗】阿里、百度、作业帮、华为的面经复盘!

先介绍下个人情况,本科金融,辅修数学,研究生转应用统计,主要申算法去岗,从今年三月开始找暑期实习开始,一直在看群内大佬们的各种面经,收获满满。现在总结了一下各种面试回报大家。

2024-02-27 21:03:12 1223

原创 推荐收藏!数据分析岗最走心的面经!

年底了,技术群组织了一场机器学习算法岗技术&面试讨论会,邀请了一些同学分享他们的面试经历,讨论会会定期召开,,下文是我们邀请的一位同学的写的都说2023年是互联网寒冬,亲身真正经历后来看,深圳寒冬这说法完全不过分。深圳互联网厂太少了,动不动就是锁hc。写在开头的建议:真心建议面试前/投简历时先了解清楚在招的岗位是否和自己的能力、职业规划匹配!!如果JD信息不明确,建议先提前沟通清楚,避免面试过程发现不是自己想做的,会很浪费精力(面不过影响情绪,面过也容易被养鱼),还错过了投其他岗位的黄金时间。

2024-02-08 01:13:19 1082

原创 【数据分析岗】8家知名企业秋招(含实习)面试题汇总

年底了,技术群组织了一场机器学习算法岗技术&面试讨论会,邀请了一些同学分享他们的面试经历,讨论会会定期召开,

2024-02-08 01:03:59 1070

原创 【数据挖掘岗】9家互联网、知名企业秋招(含实习)面试题汇总

年底了,技术群组织了一场算法岗技术&面试讨论会,邀请了一些同学分享他们的面试经历,讨论会会定期召开,

2024-02-08 00:39:27 951

原创 【机器学习算法岗】10家互联网大厂秋招面经汇总

年底了,在技术群发起了一个校招的技术&面试讨论会,去年参加秋招的小伙伴讨论比较积极,一部分人也很开心,拿到了理想的Offer。根据讨论,整理了一部分大厂的秋招面经,根据残缺的记忆整理,写的比较简单,供大家参考,希望对大家的春招和下一届的小伙伴有帮助。好好生活,会有工作的!

2024-01-31 16:02:12 1848

原创 如何使用 XGBoost 对时序数据进行精准预测?

时间序列预测是各个领域中的关键任务,包括金融、销售和能源需求等。准确的预测使企业能够做出明智的决策,优化资源,并有效地规划未来。近年来,XGBoost 算法因在时间序列预测任务中表现出色而备受青睐。本文探讨了 XGBoost 在时间序列预测中的强大功能、其优势以及如何有效利用它进行准确预测。

2024-01-31 14:26:45 1803 1

原创 面了中邮消金算法岗、开水团数据挖掘岗,做个系统性总结

最近技术群的同学,分享了面试数据挖掘/算法岗(实习)的经验。

2024-01-28 23:08:15 602

原创 面了快手电商数据分析师岗(实习),被问的汗流浃背。。。。

最近技术群的一位同学,分享了他面试快手数据分析师岗(实习)的经验。我看了一下面试题,说实话内容不难,他直言没有认真准备。

2024-01-28 22:49:45 1099

原创 推荐收藏!40 道数据挖掘面试真题大放送!

K-fold 交叉验证就是把原始数据随机分成 K 个部分,在这 K 个部分中选择一个作为测试数据,剩余的 K-1 个作为训练数据。交叉验证的过程实际上是将实验重复做 K 次,每次实验都从 K 个部分中选择一个不同的部分作为测试数据,剩余的数据作为训练数据进行实验,最后把得到的 K 个实验结果平均,用于评价模型的泛化能力,从而进行模型选择。

2024-01-24 22:57:02 1364

原创 推荐收藏!48道数据分析师高频面试题汇总!

大家好,最近很多小伙伴私信我,讲一下数据分析的面试题,今天给大家整理了48道数据分析师面试时被频繁问到的题目,找数据分析岗位的同学一定要码住认真看。

2024-01-24 22:39:02 1835

原创 功能炸裂!5个很酷的 Jupyter Notebook 技巧

今天分享了一些令人难以置信的 Jupyter 技巧。我相信这些提示将提升您的Python编程效率。

2024-01-22 10:06:27 1034

原创 再见 Pip 和 Conda!Poetry是 Python 依赖管理的更好选择!

一致的软件包安装:Poetry为安装任何软件包提供一致的格式,确保整个项目采用标准化的方法。丰富的软件包选择:Poetry提供对PyPI上大量软件包的访问,使您能够利用项目的多样化生态系统。高效的依赖管理:Poetry仅安装指定软件包的必要依赖项,减少环境中不相关软件包的数量。简化的软件包移除:Poetry简化了软件包及其相关依赖项的移除过程,使得维护一个干净和高效的项目环境变得容易。依赖解决:Poetry的确定性解析器有效解决依赖关系,迅速识别和处理任何不一致或冲突。

2024-01-22 09:18:49 1066

原创 超实用!整理了34个Python自动化办公库!

大家好,今天给大家分享一下,花费2周时间整理的Python自动化办公库。本次内容涵盖了Excel、Word、PPT、ODF、PDF、邮件、微信、文件处理等所有能在办公场景实现自动化的库,希望能够对大家有所帮助。

2024-01-21 23:27:33 1042

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除