自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Python学习与数据挖掘

微信公众号:Python学习与数据挖掘,让分享成为一种习惯!

  • 博客(605)
  • 资源 (1)
  • 收藏
  • 关注

原创 终于盼到了,Python 数据科学速查表中文版来了

近几年以来,Python 的应用场景越来越多,几乎可以应用于自然科学、工程技术、金融、通信和商业等各种领域。究其原因在于 Python 的简单易学、功能强大。想系统地学点东西,发现很多不错的技术文档都是英文资料,发现英文竟然成为了学习的拦路虎。非常幸运的是,DataCamp 推出的 Python 数据科学速查表,已经翻译成中文啦!高清资料已打包。喜欢点赞支持、欢迎收藏学习。领取方式:资料已打包,获取方法有两种:方式一、发送如下图片至微信,长按识别,回复:资料;方式二、微信搜索公众号:Python

2021-11-30 09:04:15 2754 3

原创 爱了爱了,20个好用到爆的Python函数

大家好,今天分享20个日常工作中必不可少的Python函数,这些函数平时看到的不多,但是它们使用起来倒是非常的方便,它们可以大幅度地提高工作效率。内容较长,欢迎收藏学习,喜欢点赞支持,文末有技术交流群,欢迎加入。isin()方法isin()方法主要是用来确认数据集当中的数值是否被包含在给定的列表当中df = pd.DataFrame(np.array(([1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12])), index=['

2021-11-25 19:30:38 20675 9

原创 这次不迷路了!最全 Python 学习路线图+14张思维导图真香啊!

导图作者 | ZOE@数林觅风ZOE是一名医学生,在自己博客分享了很多高质量的思维导图。本文中所列的14张思维导图,是17年作者开始学习Python时所记录的,希望对大家有所帮助。原文:https://woaielf.github.io/2017/06/13/python3-all/呕心沥血用14张思维导图将 Python 编程的核心知识总结出来,现分享给大家。按顺序依次展示了以下内容的一系列思维导图:基础知识,数据类型(数字,字符串,列表,元组,字典,集合),条件&

2021-10-19 17:11:02 1820 2

转载 实战案例!用 Python 绘制全国鸿星尔克门店分布图,最多的是你所在城市吗?

最近的鸿星尔克,频频上热搜!咱们今天就以某度地图 用Python爬虫看一下全国到底有多少家鸿星尔克门店?又到秋冬换季买衣服的时候了,可以考虑支持一波。喜欢本文点赞支持,文末提供技术交流群。需求分析首先我们打开地图搜索“鸿星尔克”:F12打开浏览器开发者模式,找到如下链接。复制该链接到浏览器,发现这是一个json格式的数据集。我们所需要的省份和对应数量还有各个城市对应的数量都在其中。发送请求我们首先模拟浏览器来发送请求获取到这个json数据集,然后获取各个城市鸿星尔克门店及其对应数量

2021-10-16 22:00:17 2236 4

原创 【视频+PPT】2021年李宏毅版40节机器学习课程已更新完毕,推荐收藏!

提起李宏毅老师,熟悉机器学习的读者朋友一定不会陌生。最典型的就是开局一言不合就“宝可梦”。李宏毅老师幽默风趣的教学风格也吸引力很多机器学习爱好者。李宏毅老师,是宝岛台湾大学电机工程系教授,他分别于2010年和2012年获得硕士和博士学位,主要研究机器学习尤其是深度学习、语言理解和语音识别。李宏毅老师的机器学习课程可以说是最具代表性的中文公开课之一,已经成为大量国内初学者的首选。截至目前,2021年版的机器学习40节课程已经全部更新完毕,全程中文讲解,覆盖的内容也非常丰富,视频均长约40分钟,内容较多,喜

2021-10-05 06:26:12 629 1

原创 李航老师《统计学习方法(第二版)》课件 & 算法代码全公开了!

李航老师的《统计学习方法》第二版的代码实现更新完毕,本文提供下载。李航老师编写的《统计学习方法》全面系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与支持向量机、提升方法、em算法、隐马尔可夫模型和条件随机场等。叙述从具体问题或实例入手,由浅入深,阐明思路,给出必要的数学推导,便于读者掌握统计学习方法的实质,学会运用。《统计学习方法》可以说是机器学习的入门宝典,许多机器学习培训班、互联网企业的面试、笔试题目,很多都参考这本书。我们将.

2021-03-14 21:33:39 1818

原创 Mac python matplotlib Glyph xxxxx missing from current font的解决方案

最近想使用matplotlib画图,发现plot出来的图无法显示中文,都是如下图的小方格,查找了很多资料,基本都是这样处理,其实这样处理基本上都是无用的(mac版本的),解决方案我在下面给出,如果你遇到相似的问题,请继续阅读。from matplotlib import font_manager as fm, rcParamsimport matplotlib as pltplt.rcParams['font.sans-serif']=['SimHei'] #显示中文标签plt.rcParams['

2020-07-04 18:18:41 7879 8

原创 如何将全国各省份人口数据绘制成地域分布图?Python 轻松解决

今天收到一个可视化数据分析的小需求,客户提供了一份各省份人口的Excel的数据文档。需要将Excel中的数据提取出来,最后将数据展示到一个平面的中国地图上面形成一个可视化的人口分布展示效果。紧接着设置data_pair的数据来源为我们前面从Excel数据文档中读取到的list列表数据,随后设置地图显示的标题即可。这是从Excel数据文档中读取的地域人口的数据,将其转换成数组后使用pprint打印出list数据列表。下面是Excel文档中存储的人口分布数据,数据不具备当前中国人口的真实性。

2022-10-16 20:23:15 1254 3

原创 30 个 Python 技巧,加速你的数据分析处理速度

今天给大家分享的是我日常在做数据处理中总结的一些 Python 技巧。

2022-10-16 10:07:27 1589 3

原创 在使用 Python 时常犯的9个错误,建议看看如何规避

最佳实践都是从错误中总结出来的,所以这里我们总结了一些遇到的最常见的错误,并提供了如何最好地解决这些错误的方法、想法和资源。

2022-10-13 22:37:59 113

原创 时间序列分析中最值得推荐的10个 Python 库

Python中有许多可用的时间序列预测库(比我们在这里介绍的更多)。每个库都有自己的优缺点,因此根据自己的需要选择合适的是很重要的。如果你有什么更好的推荐,请留言告诉我们。

2022-10-10 21:42:28 2195 1

原创 推荐5个好玩且有趣的 Python 实战脚本

Python 可以玩的方向有很多,比如爬虫、预测分析、GUI、自动化、图像处理、可视化等等,可能只需要十几行代码就能实现酷炫的功能。因为Python是动态脚本语言,所以代码逻辑比Java要简要很多,实现同样的功能少写很多代码。而且Python生态有众多的第三方工具库,把功能都封装在包里,只需要你调用接口,就能使用复杂的功能。

2022-10-10 21:37:50 1956

原创 Visual Studio Code 1.72正式发布

无论是像 Git 或 Docker 这样的工具,还是对 Go 或 Java 这样的编程语言的支持,你都可以查看可用功能的列表,并将它们添加到你的。这是一个繁琐的过程,如今用户不再需要这样操作。现在,GitHub Enterprise Server 的登录流程与 github.com 的登录流程相同,用户无需创建 PAT 就可以登录 GitHub Enterprise Server。现在有一个 VS Code 社区讨论网站,作为扩展作者的聚集地,用户可以提出问题、与其他开发者联系,并展示优秀的作品。

2022-10-08 22:54:43 2281

原创 数据可视化看板:基于 Echarts + Python Flask 动态实时大屏

1、形象直观,有利于提高效率岗位看板可视化使得部门之间、员工之间不必语言沟通,通过观察就可以了解运行流程和状况。而且由于看板可视化管理直观而简单,信息的传递速度大大加快,从而提高了生产效率。2、透明度高,便于配合和监督岗位看板可视化要求生产管理的公开化。在各个生产环节上,什么人干、干什么、怎么干、干多长时间等问题都被明确。这样一来,各个岗位的员工首先可以做好本职工作,其次可以默契配合、相互监督,促进生产效率的提高。3、传递现场的生产信息,统一思想生产现场人员众多,而且由于分工的不同导致信息传递不及时的

2022-10-06 20:55:37 1039

原创 API接口开发其实特简单,Python FastApi Web 框架教程来了

API接口开发其实特简单,Python FastApi Web 框架教程来了

2022-10-06 13:25:20 2640 1

原创 如何在 Python 中异步操作数据库?aiomysql、asyncpg、aioredis 使用介绍

当我们做一个 Web 服务时,性能的瓶颈绝大部分都在数据库上,如果一个请求从数据库中读数据的时候能够自动切换、去处理其它请求的话,是不是就能提高并发量了呢。下面我们来看看如何使用 Python 异步操作 MySQL、PostgreSQL 以及 Redis,以上几个可以说是最常用的数据库了。至于 SQLServer、Oracle,本人没有找到相应的异步驱动,有兴趣可以自己去探索一下。而操作数据库无非就是增删改查,下面我们来看看如何异步实现它们。

2022-10-05 14:32:17 420

原创 提升 Python 程序性能的7个习惯

掌握一些技巧,可尽量提高Python程序性能,也可以避免不必要的资源浪费。

2022-10-04 15:56:22 118

原创 Python 数据分析实战案例:基于电商销售数据的 RFM 模型构建

1)R(Recency):客户最近一次交易时间的间隔。R值越大,表示客户交易发生的日期越久,反之则表示客户交易发生的日期越近。2)F(Frequency):值越大,表示客户交易越频繁,反之则表示客户交易不够活跃。3)M(Monetary):客户在最近一段时间内交易的金额。M值越大,表示客户价值越高,反之则表示客户价值越低。RFM模型是衡量客户价值和用户创利能力的经典工具,依托于客户最近一次购买时间、消费频次及消费金额。

2022-10-04 10:33:33 369

原创 盘点27个机器学习、深度学习库最频繁使用的 Python 工具包(内含大量示例,建议收藏)

是Python的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库,Numpy底层使用C语言编写,数组中直接存储对象,而不是存储对象指针,所以其运算效率远高于纯Python代码。我们可以在示例中对比下纯Python与使用Numpy库。

2022-10-03 12:52:51 352

原创 API接口开发其实特简单,Python Flask Web 框架教程来了

大家好,日常工作中,无论你是数据工程师、数据挖掘工程师,甚至数据分析人员,都不可避免的与他人进行数据交互,API接口提供数据是最常见的形式。今天我给大家分享 Python Flask Web 框架教程,共计10个部分,后续内容会更新,

2022-10-03 10:39:52 940

原创 不想手敲代码?Jupyter Notebook 又一利器 Visual Python

单击橙色按钮出现下面visualpython主界面,功能还是很强大的仔细看看。

2022-10-02 08:02:22 5171 1

原创 特征筛选还在用XGB的Feature Importance?试试Permutation Importance

Permutation Importance 是一种变量筛选的方法。它有效地解决了上述提到的两个问题。Permutation Importance 将变量随机打乱来破坏变量和 y 原有的关系。如果打乱一个变量显著增加了模型在验证集上的loss,说明该变量很重要。如果打乱一个变量对模型在验证集上的 loss 没有影响,甚至还降低了 loss,那么说明该变量对模型不重要,甚至是有害的。▲ 打乱变量示例变量重要性的具体计算步骤如下:1. 将数据分为 train 和 validation 两个数据集。

2022-10-01 09:17:40 788

原创 去除多重共线性的5种方法,你学废了嘛?

以上就是对共线性特征筛选的5种方法,学会了吗?

2022-09-29 22:46:28 1058

原创 【机器学习】树模型决策的可解释性与微调(Python)

输出树的决策路径是很直接的方法,但对于大规模(树的数目>3基本就比较绕了)的集成树模型来说,决策就太过于复杂了,最终决策要每棵树累加起来,很难理解。但是树模型的解释性也是有局限的,再了解树模型的决策逻辑后,不像逻辑回归(LR)可以较为轻松的调节特征分箱及模型去符合业务逻辑(如收入越低的人通常越可能信用卡逾期,模型决策时可能持相反的逻辑,这时就需要调整了)。这里有个取巧的剪枝办法,可以在保留原始树结构的前提下,修改特定叶子节点的分数值为他们上级父节点的分数值,那逻辑上就等同于“剪枝”了。

2022-09-29 21:44:35 936

原创 系统性总结了 Numpy 所有关键知识点

( 1 ) Numpy是基于C语言编写,引用了C语言的数据类型,所以Numpy的数组中数据类型多样( 2 ) 不同的数据类型有利于处理海量数据,针对不同数据赋予不同数据类型,从而节省内存空间( 1 )一般情况下,数组维度最大到三维,一般会把三维以上的数组转化为二维数组来计算( 2 )ndarray . ndmin查询数组的维度( 3 )ndarray . shape可以看到数组的形状(几行几列),shape是一个元组,里面有几个元素代表是几维数组。

2022-09-28 22:47:00 150

原创 PySnooper – 永远不要使用print进行调试

是一个非常方便的调试器。如果您正在试图弄清楚为什么您的 Python 代码没有按照您的预期去做,您会希望使用具有断点和监视功能的成熟Debug工具,但是许多Debug工具配置起来非常麻烦。现在,有了PySnooper,您并不需要配置那么复杂的Debug工具,就能够完成对整个代码的分析。它能告诉您哪些代码正在运行,以及局部变量的值是什么。

2022-09-28 22:15:57 4347 5

原创 Pandarallel:一款能让你的 Python 计算火力拉满的工具

众所周知,由于 GIL 的存在,Python 单进程中的所有操作都是在一个CPU核上进行的,所以为了提高运行速度,我们一般会采用多进程的方式。而多进程无非就是以下几种方案:joblibppservercelery这些方案对于普通 python 玩家来说都不是特别友好,怎样才能算作一个友好的并行处理方案?那就是原来的逻辑我基本不用变,仅修改需要计算的那行就能完成我们目标的方案,而 pandarallel 就是一个这样友好的工具。

2022-09-27 09:06:15 576

原创 机器学习数据的预处理

使用拉格朗日插值法对缺失值进行插补,使用缺失值前后5个未缺失的数据参与建模,在进行插值之前,会对数据进行异常值检测,发现2015/2/21日的数据是异常的(数据大于5000), 所以把该日期数据定义为空缺值,利用拉格朗日插值对2015/2/21, 2015/2/14的数据进行插补,结果是4275.255和4156.86, 这两天使周末,而周末的销售额一般要大于周一到周五的值,所以插值的结果比较符合实际情况。将数据变换为均值为0,标准差为1的分布切记,并非一定是正态的。

2022-09-26 09:40:55 449

原创 如何用 DBSCAN 聚类算法做数据分析?

DBSCAN是一种基于密度的考虑到噪音的空间聚类算法。简单来讲,给定一组点,DBSCAN将彼此距离(欧几里得距离)很近的点聚成一类,同时它还将低密度区域中的点标记为异常值(outlier)。某数据点指定的半径中点的数量即称为密度;如果指定半径(ε)内的数据点数量超过了规定的点数量(Minpts),那么该点即称为核心点;如果某点的半径(ε)内的点数量少于规定的点数量(Minpts),不能发展下线,但是却在核心点的邻域内,那么该点称为边界点;

2022-09-25 22:52:46 263

原创 功能异常强大,推荐这款 Python 时序异常检测神器

TODS [3] 是一个全栈机器学习系统,用于对多元时间序列数据进行异常值检测。数据处理、时间序列处理、特征分析、检测算法和强化模块。通过这些模块提供的功能包括:通用数据预处理、时间序列数据平滑/转换、从时域/频域中提取特征、各种检测算法,以及涉及人类专业知识来校准系统。逐点检测(时间点作为异常值)、模式检测(子序列作为异常值)和系统检测(时间序列集作为异常值)。当时间序列中存在潜在的系统故障或小故障时,通常会出现逐点异常值。

2022-09-25 09:45:37 1622

原创 【推荐收藏】时间序列分析全面指南(附Python代码)

时间序列是在规律性时间间隔记录的观测值序列。依赖于观测值的频率,典型的时间序列可分为每小时、每天、每周、每月、每季度和每年为单位记录。有时,你可能也会用到以秒或者分钟为单位的时间序列,比如,每分钟用户点击量和访问量等等。1.1 为什么要分析时间序列呢?因为它是你做序列预测前的一步准备过程。而且,时间序列预测拥有巨大的商业重要性,因为对商业来说非常重要的需求和销量、网站访问人数、股价等都是时间序列数据。1.2 所以时间序列分析包括什么内容呢?

2022-09-24 23:51:08 246

原创 TransBigData:一款基于 Python 的超酷炫交通时空大数据工具包

TransBigData是一个为交通时空大数据处理、分析和可视化而开发的Python包。TransBigData为处理常见的交通时空大数据(如出租车GPS数据、共享单车数据和公交车GPS数据等)提供了快速而简洁的方法。TransBigData为交通时空大数据分析的各个阶段提供了多种处理方法,代码简洁、高效、灵活、易用,可以用简洁的代码实现复杂的数据任务。

2022-09-24 22:52:35 2446 3

原创 太棒了,这才称得上 Jupyter Notebook 五大效率插件

扩展插件是扩展 notebook 环境基本功能的简单插件。它们用 JavaScript 语言编写,会自动套用代码格式或者在单元格完成后发送浏览器通知。扩展插件目前仅支持(不支持 Jupyter Lab)。为什么要使用扩展插件?Jupyter Notebook 是一个很好用的工具,可用于教学、学习、原型设计、探索和尝试新方法(甚至可用于 Netflix 的生产过程中)。但是,原版 notebook 功能有限,有时令人挫败。

2022-09-24 22:09:00 120

原创 不用苦苦寻找,这就是最全的聚类算法汇总(附Python代码演示)

在本教程中,您发现了如何在 python 中安装和使用顶级聚类算法。具体来说,你学到了:聚类是在特征空间输入数据中发现自然组的无监督问题。有许多不同的聚类算法,对于所有数据集没有单一的最佳方法。在 scikit-learn 机器学习库的 Python 中如何实现、适合和使用顶级聚类算法。

2022-09-22 23:05:44 175

原创 手把手教你用 Python 和 Flask 创建REST API

注意,这里只是对REST API 的简单介绍,起到抛砖引玉作用,更加深入内容不在本次学习范围内,感兴趣的小伙伴可以查看相关资料深入学习。此外本号接受该领域的投稿,欢迎联系云朵君!

2022-09-21 23:54:18 289

原创 有了这个 Python 库,以后再也不用写正则表达式了

好了,这里主要就是给大家介绍下这个正则库,有了它,我们的正则表达式就可以变得更加清晰易读,希望对大家有帮助~

2022-09-21 22:48:43 2599 3

原创 10个常用的损失函数及Python代码实现

损失函数是一种衡量模型与数据吻合程度的算法。损失函数测量实际测量值和预测值之间差距的一种方式。损失函数的值越高预测就越错误,损失函数值越低则预测越接近真实值。对每个单独的观测(数据点)计算损失函数。将所有损失函数(loss function)的值取平均值的函数称为代价函数(cost function),更简单的理解就是损失函数是针对单个样本的,而代价函数是针对所有样本的。

2022-09-21 09:26:32 433

原创 不敢说大话了,Python中 print 函数的8种用法还没搞明白

本文详细地介绍了Python中打印函数print的各个参数的用法,并由浅入深地对其特性进行了相应的讲解,并给出了相应的代码示例。

2022-09-21 09:10:55 201

原创 一文读懂 Python 装饰器

在 Python 中,函数是一种非常灵活的结构,我们可以把它赋值给变量、当作参数传递给另一个函数,或者当成某个函数的输出。装饰器本质上也是一种函数,它可以让其它函数在不经过修改的情况下增加一些功能。这也就是「装饰」的意义,这种「装饰」本身代表着一种功能,如果用它修饰不同的函数,那么也就是为这些函数增加这种功能。一般而言,我们可以使用装饰器提供的 @ 语法糖(Syntactic Sugar)来修饰其它函数或对象。

2022-09-21 08:42:35 158

原创 效率倍增啊,20个面向数据科学家的自动机器学习(AutoML)库来了

AutoML是指自动机器学习。它说明了如何在组织和教育水平上自动化机器学习的端到端过程。机器学习模型基本上包括以下步骤:数据读取和合并,使其可供使用。数据预处理是指数据清理和数据整理。优化功能和模型选择过程的位置。将其应用于应用程序以预测准确的值。最初,所有这些步骤都是手动完成的。但是现在随着AutoML的出现,这些步骤可以实现自动化。AutoML当前分为三类:用于自动参数调整的AutoML(相对基本的类型)用于非深度学习的AutoML,例如AutoSKlearn。

2022-09-20 23:25:31 429 1

mac版SimHei(黑体)

最近想使用matplotlib画图,发现plot出来的图无法显示中文,都是如下图的小方格,查找了很多资料,基本都是这样处理,其实这样处理基本上都是无用的(mac版本的),解决方案我在下面给出,如果你遇到相似的问题,请继续阅读。

2020-07-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除