自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Python学习与数据挖掘

微信公众号:Python学习与数据挖掘,让分享成为一种习惯!

  • 博客(650)
  • 资源 (1)
  • 收藏
  • 关注

原创 3.5万字,图解 Pandas

大家好,在 Python 各个工具包中,最频繁使用的应该就是 Pandas 了。今天我以图解的方式给大家介绍 Pandas 中各种常用的操作,内容有点长,

2023-03-31 10:16:01 1102 2

原创 终于盼到了,Python 数据科学速查表中文版来了

近几年以来,Python 的应用场景越来越多,几乎可以应用于自然科学、工程技术、金融、通信和商业等各种领域。究其原因在于 Python 的简单易学、功能强大。想系统地学点东西,发现很多不错的技术文档都是英文资料,发现英文竟然成为了学习的拦路虎。非常幸运的是,DataCamp 推出的 Python 数据科学速查表,已经翻译成中文啦!高清资料已打包。喜欢点赞支持、欢迎收藏学习。领取方式:资料已打包,获取方法有两种:方式一、发送如下图片至微信,长按识别,回复:资料;方式二、微信搜索公众号:Python

2021-11-30 09:04:15 3162 3

原创 爱了爱了,20个好用到爆的Python函数

大家好,今天分享20个日常工作中必不可少的Python函数,这些函数平时看到的不多,但是它们使用起来倒是非常的方便,它们可以大幅度地提高工作效率。内容较长,欢迎收藏学习,喜欢点赞支持,文末有技术交流群,欢迎加入。isin()方法isin()方法主要是用来确认数据集当中的数值是否被包含在给定的列表当中df = pd.DataFrame(np.array(([1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12])), index=['

2021-11-25 19:30:38 21505 9

原创 这次不迷路了!最全 Python 学习路线图+14张思维导图真香啊!

导图作者 | ZOE@数林觅风ZOE是一名医学生,在自己博客分享了很多高质量的思维导图。本文中所列的14张思维导图,是17年作者开始学习Python时所记录的,希望对大家有所帮助。原文:https://woaielf.github.io/2017/06/13/python3-all/呕心沥血用14张思维导图将 Python 编程的核心知识总结出来,现分享给大家。按顺序依次展示了以下内容的一系列思维导图:基础知识,数据类型(数字,字符串,列表,元组,字典,集合),条件&

2021-10-19 17:11:02 2394 2

转载 实战案例!用 Python 绘制全国鸿星尔克门店分布图,最多的是你所在城市吗?

最近的鸿星尔克,频频上热搜!咱们今天就以某度地图 用Python爬虫看一下全国到底有多少家鸿星尔克门店?又到秋冬换季买衣服的时候了,可以考虑支持一波。喜欢本文点赞支持,文末提供技术交流群。需求分析首先我们打开地图搜索“鸿星尔克”:F12打开浏览器开发者模式,找到如下链接。复制该链接到浏览器,发现这是一个json格式的数据集。我们所需要的省份和对应数量还有各个城市对应的数量都在其中。发送请求我们首先模拟浏览器来发送请求获取到这个json数据集,然后获取各个城市鸿星尔克门店及其对应数量

2021-10-16 22:00:17 4234 5

原创 【视频+PPT】2021年李宏毅版40节机器学习课程已更新完毕,推荐收藏!

提起李宏毅老师,熟悉机器学习的读者朋友一定不会陌生。最典型的就是开局一言不合就“宝可梦”。李宏毅老师幽默风趣的教学风格也吸引力很多机器学习爱好者。李宏毅老师,是宝岛台湾大学电机工程系教授,他分别于2010年和2012年获得硕士和博士学位,主要研究机器学习尤其是深度学习、语言理解和语音识别。李宏毅老师的机器学习课程可以说是最具代表性的中文公开课之一,已经成为大量国内初学者的首选。截至目前,2021年版的机器学习40节课程已经全部更新完毕,全程中文讲解,覆盖的内容也非常丰富,视频均长约40分钟,内容较多,喜

2021-10-05 06:26:12 1021 1

原创 李航老师《统计学习方法(第二版)》课件 & 算法代码全公开了!

李航老师的《统计学习方法》第二版的代码实现更新完毕,本文提供下载。李航老师编写的《统计学习方法》全面系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与支持向量机、提升方法、em算法、隐马尔可夫模型和条件随机场等。叙述从具体问题或实例入手,由浅入深,阐明思路,给出必要的数学推导,便于读者掌握统计学习方法的实质,学会运用。《统计学习方法》可以说是机器学习的入门宝典,许多机器学习培训班、互联网企业的面试、笔试题目,很多都参考这本书。我们将.

2021-03-14 21:33:39 2684

原创 Mac python matplotlib Glyph xxxxx missing from current font的解决方案

最近想使用matplotlib画图,发现plot出来的图无法显示中文,都是如下图的小方格,查找了很多资料,基本都是这样处理,其实这样处理基本上都是无用的(mac版本的),解决方案我在下面给出,如果你遇到相似的问题,请继续阅读。from matplotlib import font_manager as fm, rcParamsimport matplotlib as pltplt.rcParams['font.sans-serif']=['SimHei'] #显示中文标签plt.rcParams['

2020-07-04 18:18:41 9012 8

原创 面试度小满机器学习算法岗,一面竟然挂了。。。

节前,我们星球组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学。针对算法类的技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。上周我们星球上一位小伙伴跟我聊天,跟我分享了他面试度小满机器学习算法的面经。时间:不到1个半小时面试内容:自我介绍对项目的进行深度盘问做题:最长上升子序列,要求:空间O(n)、时间O(nlogn)、返回字典序最小的 (不会写,写了一个时间、空间都O(n^2)的算法)

2024-05-01 14:21:31 402 1

原创 这 6 个探索性数据分析(EDA)工具,太实用了!

当进行数据分析时,探索性数据分析(EDA)是一个至关重要的阶段,它能帮助我们从数据中发现模式、趋势和异常现象。而选择合适的EDA工具又能够极大地提高工作效率和分析深度。在本文中,我将介绍6个极其实用的探索性数据分析(EDA)工具,这些工具能够帮助您更好地理解数据、发现隐藏的信息,并为后续分析和决策提供有力支持。让我们一起来看看这些工具是如何帮助我们探索数据世界的吧!

2024-04-13 18:41:21 926

原创 深度学习实战案例:使用 Transformers 进行概率时间序列预测实战

接下来,让我们实例化一个模型。该模型将从头开始训练,因此我们不使用 from_pretrained 方法,而是从 config 中随机初始化模型。我们为模型指定了几个附加参数:prediction_length (在我们的例子中是 24 个月) : 这是 Transformer 的解码器将学习预测的范围;context_length: 如果未指定 context_length,模型会将 context_length (编码器的输入) 设置为等于 prediction_length;

2024-04-13 18:09:00 740

原创 面滴滴机器学习算法岗,居然被问到了大模型相关问题。。。

节前,我们星球组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学,针对算法类的技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。上周我们星球上一位小伙伴跟我聊天,跟我分享了他面试滴滴机器学习算法岗的面经。让他惊讶的是,面试官居然问他是否使用大模型、如何让大模型提升自己的工作效率、大模型的微调、量化等问题,直言不会大模型相关内容,让自己的优势立马消失了。

2024-03-31 08:50:18 678

原创 《大模型面试宝典》(2024版) 正式发布!

2022 年11月底,OpenAI 正式推出 ChatGPT ,不到两个月的时间,月活用户就突破1亿,成为史上增长最快的消费者应用。目前国内已发布的大模型超过200个,大模型的出现彻底改变了我们的生活和学习方式。只要你想从事 AI 相关的岗位,无论是计算机视觉(CV)、自然语言处理(NLP)、搜广推、风控、机器学习算法等,大模型相关话题都是绕不开的。可能唯一的区别就是场景和问题难度上。最近我们星球群组织了一场AI技术&面试讨论会,邀请了一些互联网大厂朋友、最近参加社招和校招面试的同学。

2024-03-31 08:36:44 433

原创 最强、最全面、最频繁考的 SQL 面试题汇总(含答案)

年前,技术群组织了一场数据类的技术&面试讨论会,邀请了一些大厂朋友、23年参加社招和校招的同学来分享:新人如何入门数据和算法岗,面经/面试题经验分享、大厂在算法场景的落地项目及经验分享等热门话题。结合讨论内容,今天我总结一下面试中最频繁被考的 SQL 面试题,

2024-03-20 23:38:41 1085

原创 面了几家大厂数据挖掘岗,题是一家比一家难。。。

年前,技术群组织了一场数据类的技术&面试讨论会,邀请了一些大厂同学和23年参加招聘的同学来分享:新人如何入门数据和算法岗,面经/面试题分享、大厂在算法场景的落地项目及经验分享等热门话题。今天分享一位星球成员的上岸之旅,最终成功拿下。希望对后续找工作的有所帮助。如果你想加入我们的讨论群或者希望要更详细的资料,现在距离秋招结束也好长一段时间了,今天总结一下自己在秋招中的一些经验和教训,希望可以帮助到学弟学妹们。先介绍一下我自己的情况,我本科211,硕士985。

2024-03-20 22:46:16 722

原创 成功上岸字节跳动数据分析岗,流程很快,分享面经!

年前,技术群组织了一场数据类的技术&面试讨论会,邀请了一些大厂同学和23年参加招聘的同学来分享:新人如何入门数据和算法岗,面经/面试题分享、大厂在算法场景的落地项目及经验分享等热门话题。今天我整理一位小伙伴的面经验,分享给大家,希望对后续找工作的有所帮助。

2024-02-27 22:57:42 489

原创 腾讯数据分析岗面经,面试时死板背答案不可取~

年前,技术群组织了一场数据类的技术&面试讨论会,邀请了一些大厂同学和23年参加招聘的同学来分享:新人如何入门数据和算法岗,面经/面试题分享、大厂在算法场景的落地项目及经验分享等热门话题。今天我整理一位小伙伴的面经验,分享给大家,希望对后续找工作的有所帮助。

2024-02-27 22:52:02 800

原创 滴滴风控机器学习算法岗面试题8道(含答案解析)

快速排序(QuickSort)的平均时间复杂度为O(n log n),最坏情况下的时间复杂度为O(n^2)。快速排序的稳定性取决于具体的实现方式。通常情况下,快速排序是不稳定的,因为在分区过程中,元素的相对顺序可能会改变。快速排序的不稳定性是由于分区过程中的元素交换操作引起的。在分区过程中,我们选择一个基准元素(通常是第一个或最后一个元素),将小于基准的元素放在基准的左边,大于基准的元素放在基准的右边。在交换元素的过程中,相等元素的相对顺序可能发生改变,从而导致排序结果的不稳定性。

2024-02-26 11:28:39 1007

原创 美团营销机器学习算法岗(实习)面试题9道(含答案解析)

一种评估模型性能的统计学方法,通常用于训练样本有限的情况。将数据集划分为多个子集,多次训练模型,并在每次训练中使用不同的子集作为验证集,其余作为训练集。常见的交叉验证方法包括k折交叉验证和留一法。

2024-02-26 11:00:26 1261

原创 100个 Python 小技巧,有效增强你的数据处理能力

Python 凭借其强大的工具库提供了一系列功能,简化了数据操作和分析。本文分享 100 个必备的 Python 代码,每个都经过精心设计,旨在增强您的数据处理能力。从基本的数据清洗技术到高级的数据转换和分析策略,这些一行代码旨在简化您的编码工作流程,提高处理速度,并从数据中解锁更深层次的洞察力。

2024-02-18 11:45:45 881

原创 面了滴滴的数据分析师(实习),几道面试题都是原题啊。。。

年前,技术群组织了一场数据类的技术&面试讨论会,邀请了一些同学分享他们的面试经历,讨论会会定期召开,如果你想加入我们的讨论群或者希望要更详细的资料,文末加入。,以下是这位同学自述。

2024-02-12 21:47:59 448

原创 面试必备!机器学习常用十大算法的优缺点!

面试的时候,经常会问一些机器学习模型的优缺点,作为面试者有时却容易忽略,今天我一次性总结一下,

2024-01-09 16:36:08 858

原创 聊一聊国内大模型公司,大模型面试心得、经验、感受

这段时间面试了很多家,也学到了超级多东西。楼主这边背景是做基座预训练算法端为主的,对框架端和RL的内容有一定了解(面试能凑合),对于后端的知识比如ML compiler,kernel,cuda相关的了解就比较浅了(问到觉大概率挂)。硬件几乎不太懂。感觉一圈聊下来几点感悟:大模型这方向真的卷,面试时好多新模型,新paper疯狂出,东西出的比我读的快。Research岗位对工程也有要求,工程端也需要了解模型。感觉比较硬核的岗位,尤其初创公司都是对好几个点都有要求的(应用,模型,框架,底层后端,硬件)。

2023-09-29 14:43:33 1150

原创 这应该是最全的机器学习模型可解释性的综述

模型可解释性方面的研究,在近两年的科研会议上成为关注热点,因为大家不仅仅满足于模型的效果,更对模型效果的原因产生更多的思考,这样的思考有助于模型和特征的优化,更能够帮助更好的理解模型本身和提升模型服务质量。本文对机器学习模型可解释性相关资料汇总 survey。

2023-09-09 08:07:25 481

原创 GPU安装指南:英伟达H800加速卡常见软件包安装命令

如果使用H800,CUDA版本要在11.8及以上,同时,PyTorch版本要在2.0.0以上。下面是我使用CUDA为11.7,同时PyTorch为1.13.1的报错信息。

2023-08-20 13:45:33 2604 1

原创 GPU安装指南:英伟达A800加速卡常见软件包安装命令

完整

2023-08-20 13:40:39 1413

原创 一文入门最热的LLM应用开发框架LangChain

假如我们想要用 openai api 对一个段文本进行总结,我们通常的做法就是直接发给 api 让他总结。但是如果文本超过了 api 最大的 token 限制就会报错。这时,我们一般会进行对文章进行分段,比如通过 tiktoken 计算并分割,然后将各段发送给 api 进行总结,最后将各段的总结再进行一个全部的总结。LangChain 很好的帮我们处理了这个过程,使得我们编写代码变的非常简单。# 导入os,设置环境变量。导入文本加载器、总结链、文本分割器及OpenAI模型import os。

2023-08-20 12:35:16 1167 1

原创 深度学习实战案例:时间序列预测代码模板(单变量、多元、多步、多元多步)

长短期记忆网络,简称,可以应用于时间序列预测。有许多类型的 LSTM 模型可用于每种特定类型的时间序列预测问题。在本文中,我将分享一系列标准时间序列预测问题开发一套 LSTM 模型。本文的目的是针对每种类型的时间序列问题提供独立示例作为模板,你可以复制该模板并针对你的特定时间序列预测问题进行调整。

2023-05-02 22:34:09 1582 1

原创 深度学习实战案例:基于fasttext embedding + lightgbm 垃圾短信识别

NLP,自然语言处理就是用计算机来分析和生成自然语言(文本、语音),目的是让人类可以用自然语言形式跟计算机系统进行人机交互,从而更便捷、有效地进行信息管理。NLP是人工智能领域历史较为悠久的领域,但由于语言的复杂性(语言表达多样性/歧义/模糊等等),如今的发展及收效相对缓慢。比尔·盖茨曾说过,“NLP是 AI 皇冠上的明珠。” 在光鲜绚丽的同时,却可望而不可及(…)。为了揭开NLP的神秘面纱,本文接下来会梳理下NLP流程、主要任务及算法,并最终落到实际NLP项目(经典的文本分类任务的实战)。

2023-05-02 22:15:19 1636 1

原创 深度学习实战案例:构建基于 DSSM 双塔模型的电影推荐系统

DSSM深度语义匹配模型原理很简单:获取搜索引擎中的用户搜索query和doc的海量曝光和点击日志数据,训练阶段分别用复杂的深度学习网络构建query侧特征的query embedding和doc侧特征的doc embedding,线上infer时通过计算两个语义向量的cos距离来表示语义相似度,最终获得语义相似模型。完整代码、数据、技术交流提升, 均可加入知识星球交流群获取,群友已超过2000人,添加时切记的备注方式为:来源+兴趣方向,方便找到志同道合的朋友。

2023-05-02 22:08:54 1480

原创 深度学习实战案例:构建基于 Transformer 建立时间序列预测模型(附完整代码)

我最近读了一篇非常有趣的论文,名为。我认为从头开始实施类似的东西以了解有关时间序列预测的更多信息可能是一个有趣的项目。

2023-05-02 15:42:17 4439

原创 深度学习实战案例:基于LSTM的四种方法进行电影评论情感分类预测(附完整代码)

序列分类是一个预测建模问题,你有一些输入序列,任务是预测序列的类别。这个问题很困难,因为序列的长度可能不同,包含非常大的输入符号词汇表,并且可能需要模型学习输入序列中符号之间的长期上下文或依赖关系。在本文中,你将了解如何使用 Keras 深度学习库在 Python 中为序列分类问题开发 LSTM 递归神经网络模型。

2023-05-02 15:35:15 2968 1

原创 深度学习实战案例:多元时序的空气质量预测(附完整代码)

在本节中,我们将在多元输入数据上拟合 LSTM。首先,我们必须将准备好的数据集拆分为训练集和测试集。为了加快本次演示的模型训练,我们将只在第一年的数据上拟合模型,然后在剩余 4 年的数据上对其进行评估。如果你有时间,可以考虑探索这个测试工具的倒置版本。下面的示例将数据集拆分为训练集和测试集,然后将训练集和测试集拆分为输入和输出变量。最后,输入 (X) 被重塑为 LSTM 期望的 3D 格式,即 [samples, timesteps, features]。

2023-05-02 11:56:57 2826

原创 深度学习实战案例:基于 Pytorch +DNN的顾客流失预测

PyTorch和TensorFlow库是深度学习中最常用的两个Python库。PyTorch由Facebook开发,而TensorFlow是Google项目。在本文中,您将看到如何使用PyTorch库解决分类问题。分类问题属于机器学习问题的一类,在给定一组特征的情况下,任务是预测离散值。预测肿瘤是否为癌症或者学生是否可能通过考试都是分类问题的常见例子。在本文中,我们将根据银行客户的某些特征来预测客户在6个月后是否有可能离开银行。顾客离开组织的现象也称为顾客流失。

2023-05-02 11:44:11 2423 3

原创 深度学习实战案例:基于LSTM 的洗发水销量预测(附完整代码)

在本案例中,你将了解如何为单变量时间序列预测问题开发 LSTM 预测模型。

2023-05-02 11:36:36 1681

原创 深度学习实战案例:基于LSTM的国际航空公司乘客预测(附完整代码)

时间序列预测问题是一类相对困难的预测建模问题。与回归预测建模不同,时间序列还增加了输入变量之间序列依赖性的复杂性。长短期记忆网络或 LSTM 网络是一种用于深度学习的递归神经网络,比较擅长解决此类问题。在本文中,我将分享如何使用 Keras 深度学习库在 Python 中开发 LSTM 网络来解决演示时间序列预测问题。这些示例将准确展示你如何针对时间序列预测建模问题开发自己的不同结构的 LSTM 网络。

2023-05-02 11:07:17 3564

原创 我常用的20套可视化炫酷大屏真香啊(附源码)

由于公司项目里面用到一个数据可视化大屏页面,自己网上各种谷歌百度,发现资源良莠不齐,而且大多数都是收费的。我自己整理下,免费分享给大家,以免大家再走冤枉路。如果大家有珍藏的好模板,欢迎大家继续补充贡献!20套大数据可视化炫酷大屏模板;包含行业:社区、物业、政务、交通、工程、医疗、金融银行等,全网最新、最多,最全、最酷、最炫大数据可视化模板,陆续更新中。

2023-04-03 23:17:52 1540

原创 SQL学习路线图,首次公开

很多小伙伴一直不知道该怎么学好SQL,或者说对SQL的知识点没有一个教全面的认识。我精心整理了一份学习SQL的路线图,里面几乎涵盖了SQL的所有知识点,方便你对SQL的知识有个比较清晰了解,也可以按照上面的知识点,查漏补缺。话不多说,先上图原图在手机上看还是比较清晰的,我在手机上截取了原图放大后的效果:每个知识章节都用不同的颜色标注出来,对不同的SQL知识可以进行分类。由于上传的图片被压缩了,可能看的不是很清晰。需要高清版的如下方式。

2023-03-31 10:09:30 414

原创 Pandas 必知必会的13个使用技巧

传统的运维方式在监控、问题发现、告警以及故障处理等各个环节均存在明显不足,需要大量依赖人的经验,在数据采集、异常诊断分析、故障处理的效率等方面有待提高。本关键技术面对传统运维故障处理效率低、问题定位不准确、人力成本高三大痛点,将人工智能与运维相结合,由AI逐步取代人力决策,通过机器学习方法,快速给出决策建议或提前规避故障,实现网云业务智能分析和优化,从而极大提高运维生产力。总体来说智能运维比传统运维方式效率高,数据采集更准确,更智能。

2023-03-18 22:16:02 517

原创 基于机器学习的异常检测与分析技术

传统的运维方式在监控、问题发现、告警以及故障处理等各个环节均存在明显不足,需要大量依赖人的经验,在数据采集、异常诊断分析、故障处理的效率等方面有待提高。本关键技术面对传统运维故障处理效率低、问题定位不准确、人力成本高三大痛点,将人工智能与运维相结合,由AI逐步取代人力决策,通过机器学习方法,快速给出决策建议或提前规避故障,实现网云业务智能分析和优化,从而极大提高运维生产力。总体来说智能运维比传统运维方式效率高,数据采集更准确,更智能。

2023-02-21 21:48:45 2744

mac版SimHei(黑体)

最近想使用matplotlib画图,发现plot出来的图无法显示中文,都是如下图的小方格,查找了很多资料,基本都是这样处理,其实这样处理基本上都是无用的(mac版本的),解决方案我在下面给出,如果你遇到相似的问题,请继续阅读。

2020-07-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除