TreasureAI-CSDN博客

原创 [Python3] Pandas v1.0 —— (五) 累计与分组

文章目录八、累计与分组（一）Pandas的简单累计功能Pandas的累计方法（二）GroupBy：分割、应用和组合1. 分割、应用和组合2. GroupBy 对象3. 累计、过滤、转换和应用4. 设置分割的键八、累计与分组在对较大的数据进行分析时，一项基本的工作就是有效的数据累计（summarization）：计算累计（aggregation）指标，如sum(), mean(), media...

2020-04-25 16:27:54 1430 1

原创 [Python3] Pandas v1.0 —— (四) 合并数据集

文章目录六、合并数据集：Concat与Append操作（一）NumPy数组的合并 np.concatenate()（二）通过 pd.concat 实现简易合并1. 索引重复六、合并数据集：Concat与Append操作将不同的数据源进行合并，包括：将两个不同的数据集简单拼接用数据库的连接 (join) 与合并 (merge) 操作处理有重叠字段的数据集# 定义一个能够创建DataF...

2020-04-21 20:29:06 1919 6

转载 [Python3] Python中单下划线和双下划线的含义

本文介绍了Python中单下划线和双下划线（“dunder”）的各种含义和命名约定，名称修饰（name mangling）的工作原理，以及它如何影响你自己的Python类。单下划线和双下划线在Python变量和方法名称中都各有其含义。有一些含义仅仅是依照约定，被视作是对程序员的提示 - 而有一些含义是由Python解释器严格执行的。在本文中，我将讨论以下五种下划线模式和命名约定，以及它们如何影...

2019-06-08 15:53:56 4554

原创 [Python3] Matplotlib —— (十) 文字与注释

文章目录十一、文字与注释（一）在图中添加文字标签（二）坐标变换与文字位置（三）箭头与注释[ Matplotlib version: 3.2.1 ]十一、文字与注释一些场景中，可视化需要辅之以少量文字提示（textual cue）和标签。（一）在图中添加文字标签最基本的注释（annotation）类型有坐标轴标题与图标题，此外，可以通过plt.text/ax.text命令手动添加注释，它们可以在具体的x/y坐标点上放上文字ax.text方法需要一个x轴坐标、一个y轴坐标、一个字符串和一些可选

2020-05-19 21:48:16 958

原创 [Python3] Pandas v1.0 —— (九) 高性能Pandas: eval()与query()

文章目录十二、高性能Pandas：eval()与query()（一）query()与eval()的设计动机：复合代数式（二）用pandas.eval()实现高性能运算pd.eval()支持的运算(1) 算术运算符(2) 比较运算符(3) 位运算符(4) 对象属性与索引(5) 其他运算（三）用DataFrame.eval()实现列间运算1. 用DataFrame.eval()新增列2. DataFrame.eval()使用局部变量（四）DataFrame.query()方法（五）性能决定使用时机[ Pan

2020-05-18 20:56:46 1273 1

原创 [Python3] Matplotlib —— (九) 多子图

文章目录十、多子图（一）plt.axes：手动创建子图（二）plt.subplot：简易网格子图（三）plt.subplots：用一行代码创建网格（四）plt.GridSpec：实现更复杂的排列方式[ Matplotlib version: 3.2.1 ]十、多子图有时候需要从多个角度对数据进行对比。Matplotlib为此剔除了子图（subplot）的概念：在较大的图形中同时放置一组较小的坐标轴。这些子图可能是画中画（inset）、网格图（grid of plots），或者是其他更复杂的布局形

2020-05-17 23:25:01 3718

原创 [Python3] 机器学习 ——（二）Scikit-Learn简介

二、Scikit-Learn简介Scikit-Learn为各种常用机器学习算法提供了高效版本。（一）Scikit-Learn的数据表示机器学习是从数据创建模型的学问，因此首先需要了解怎样表示数据爱你让计算机理解。Scikit-Learn认为数据表示（data representation）最好的方法就是用数据表的形式。1. 数据表基本的数据表就是二维网格数据，其中的每一行表示数据集中的每个样本（samples），而列表示构成每个样本的相关特征（features）。# 鸢尾花数据集import

2020-05-17 20:39:37 3496

原创 [Python3] Matplotlib —— (八) 配置颜色条

文章目录九、配置颜色条（一）选择配色方案（二）颜色条刻度的限制与扩展功能的设置（三）离散型颜色条[ Matplotlib version: 3.2.1 ]九、配置颜色条图例通过离散的标签标示离散的图形元素，然而，对于图形中由彩色的点、线、面构成的连续标签，用颜色条来表示的效果比较好。在Matplotlib中，颜色条是一条独立的坐标轴，可以指明图形中颜色的含义。通过colorbar()函数可以创建最简单的颜色条import numpy as npimport matplotlib.pyplo

2020-05-14 19:21:11 8942 1

原创 [Python3] Matplotlib —— (七) 配置图例

文章目录八、配置图例（一）选择图例显示的元素（二）在图例中显示不同尺寸的点（三）同时显示多个图例[ Matplotlib version: 3.2.1 ]八、配置图例在可视化图形中使用图例，可以为不同的图形元素分配标签。本文介绍如何在Matplotlib中自定义图例的位置与艺术风格。图例默认配置可以用plt.legend()命令来创建最简单的图例，它会自动创建一个包含每个图形元素的图例import numpy as npimport matplotlib.pyplot as pltpl

2020-05-14 18:56:03 1873

原创 [Python3] Matplotlib —— (六) 频次直方图、数据区间划分和分布密度

文章目录七、频次直方图、数据区间划分和分布密度（一）简易频次直方图（二）二维频次直方图与数据区间划分1. plt.hist2d：二维频次直方图2. plt.hexbin：六边形区间划分3. 核密度估计[ Matplotlib version: 3.2.1 ]七、频次直方图、数据区间划分和分布密度（一）简易频次直方图%matplotlib inlineimport numpy as npimport matplotlib.pyplot as pltplt.style.use('seaborn

2020-05-13 19:05:18 8741 1

原创 [Python3] Matplotlib —— (五) 密度图与等高线图

文章目录六、密度图与等高线图三维函数的可视化1. 用等高线图可视化三维数据2. 用彩色等高线可视化三维数据3. 带填充色的三维数据可视化4. 重新渲染三维数据彩色图5. 在彩色图上加上带数据标签的等高线[ Matplotlib version: 3.1.3 ]六、密度图与等高线图在二维图上用等高线图或者彩色图来表示三维数据是个不错的方法。Matplotlib提供三个函数来解决这个问题：用plt.contour画等高线图用plt.contourf画带有填充色的等高线图（filled cont

2020-05-13 18:48:49 7238

原创 [Python3] 机器学习 ——（一）机器学习简介

文章目录一、机器学习机器学习的分类1. 有监督学习2. 无监督学习3. 半监督学习一、机器学习机器学习经常被归类为人工智能（artificial intelligence）的子领域。虽然对机器学习的研究确实是源自人工智能领域，但是机器学习的方法却应用于数据科学领域，因此把机器学习看作是一种数学建模更合适。机器学习的本质是借助数学模型理解数据。当我们给模型装上可以适应观测数据的可调参数时，“学习”就开始了，此时的程序被认为具有从数据中“学习”的能力。一旦模型可以拟合旧的观测数据，那么它们就可以预

2020-05-12 20:34:06 586

原创日常问题解决汇总

日常操作时遇到各种Error报错，所遇问题以及搜索到的解决方案参考来源大汇总（持续更新）1.2.3.4.5.6.7.8.9.10. pip install 下载库时中途报错，切换网络重试成功。。诡异的错误：OpenSSL.SSL.Error: [(‘SSL routines’, ‘ssl3_get_record’, ‘decryption failed or bad reco...

2020-05-12 16:39:24 1806

原创 Markdown设置自动生成目录及序号分级标准

使用@[TOC]命令可以自动生成目录编辑如下：@[toc]---# 一级标题## 二级标题### 三级标题#### 四级标题##### 五级标题###### 六级标题显示结果：文章目录一级标题二级标题三级标题四级标题五级标题六级标题一级标题二级标题三级标题四级标题五级标题六级标题...

2020-05-11 20:02:38 8851

原创 [Python3] Matplotlib —— (四) 可视化异常处理

文章目录五、可视化异常处理（一）基本误差线（二）连续误差五、可视化异常处理对任何一种科学测量方法来说，准确地衡量数据误差比数据本身更重要。在数据可视化的结果中用图形将误差有效地显示出来，就可以提供更充分的信息。（一）基本误差线基本误差线（errorbar）可以通过一个Matplotlib函数创建。fmt是一种控制线条和点的外观的代码格式，语法与plt.plot的缩写代码相同errorbar有许多改善结果的选项，通过这些额外选项，可以轻松自定义误差线图形的绘画风格让误差线的颜色比数据点的颜色

2020-05-11 19:30:10 1940

原创 [Python3] Matplotlib —— (三) 简易散点图

文章目录四、简易散点图（一）用plt.plot画散点图（二）用plt.scatter画散点图（三）plot与scatter效率对比四、简易散点图散点图（scatter plot），不由线段连接，而是由独立的点、圆圈或其他形状构成。%matplotlib inlineimport matplotlib.pyplot as pltplt.style.use('seaborn-whitegrid')import numpy as np（一）用plt.plot画散点图简易散点图x = np.l

2020-05-11 18:34:51 1356

原创 [Python3] Matplotlib.pyplot.plot图形符号、风格及颜色缩写速查表

Matplotlib.pyplot.plot图形符号、线条风格及颜色简写形式速查表注：图形符号、线条风格及颜色均为plot函数的可选参数如不指定符号和线条风格，默认为无符号的实线如不指定颜色，Matplotlib会为多条线自动循环使用一组默认的颜色Format StringsA format string consists of a part for color, marker and line:fmt = '[marker][line][color]'Each of them is

2020-05-10 23:39:41 14840 1

原创 [Python3] Matplotlib —— (二) 简易线形图

文章目录三、简易线形图（一）调整图形：线条的颜色与风格（二）调整图形：坐标轴上下限（三）设置图形标签三、简易线形图所有图形中，最简单的应该就是线性方程 y=f(x)y = f(x)y=f(x) 的可视化了。要画Matplotlib图形时，需要先创建一个图形fig和一个坐标轴axfigure（plt.Figure类的一个实例）可以被看成是一个能够容纳各种坐标轴、图形、文字和标签的容器axes（plt.Axes类的一个实例）是一个带有刻度和标签的矩形，最终会包含所有可视化的图形元素通常会用变

2020-05-10 18:21:15 1710

原创 [Python3] Matplotlib —— (一) 入门基础

文章目录一、Matplotlib常用技巧（一）导入（二）设置绘图样式（三）显示图形（四）将图形保存为文件二、两种画图接口（一）MATLAB风格接口（二）面向对象接口一、Matplotlib常用技巧（一）导入import matplotlib as mplimport matplotlib.pyplot as plt（二）设置绘图样式使用plt.style来选择图形的绘图风格（如经典风格classic）plt.style.use('classic')（三）显示图形1.在脚本中画图如果

2020-05-09 23:12:39 1126

原创 [Python3] Pandas v1.0 —— (八) 处理时间序列

文章目录十一、处理时间序列（一）Python的日期与时间工具（二）Pandas时间序列：用时间作索引（三）Pandas时间序列数据结构（四）时间频率与偏移量十一、处理时间序列本文涉及的日期与时间数据主要包含三类：时间戳：表示某个具体的时间点时间间隔与周期：表示开始时间点与结束时间点之间的时间长度，周期通常指一种特殊形式的时间间隔，每个间隔长度相同，彼此之间不会重叠时间增量（time delta）或持续时间（duration）：表示精确的时间长度（一）Python的日期与时间工具在Pyth

2020-05-09 19:14:43 1247

原创 Markdown表格内换行

表格基本写法：项目 | Value-------- | -----电脑 | $1600手机 | $12导管 | $1| Column 1 | Column 2 ||:--------:| -------------:|| centered 文本居中 | right-aligned 文本居右 |显示：项目Value电脑$1600手机$12导管$1Column 1Column 2centered 文本

2020-05-08 20:41:50 2356 1

原创 [Python3] Pandas v1.0 —— (七) 向量化字符串操作

文章目录十、向量化字符串操作Pandas字符串方法列表1. 与Python字符串方法相似的方法2. 使用正则表达式的方法3. 其他字符串方法十、向量化字符串操作Pandas提供一系列向量化字符串操作（vectorized string operation）是在处理（清洗）现实工作中的数据时不可或缺的功能。Pandas字符串方法列表1. 与Python字符串方法相似的方法返回字符串Series[Series or Index of object]：方法参数描述lower()

2020-05-08 19:42:13 1467

原创 [Python3] Pandas v1.0 —— (六) 数据透视表

文章目录九、数据透视表（一）GroupBy 实现数据透视表（二）数据透视表语法 pivot_table1. 多级数据透视表2. pivot_table 主要参数解读九、数据透视表数据透视表（pivot table）将每一列数据作为输入，输出将数据不断细分成多个维度累计信息的二维数据表（多维GroupBy累计操作，行列同时分组）（一）GroupBy 实现数据透视表import numpy ...

2020-04-25 17:55:37 954

原创查看Python及程序包/第三方库的版本和路径

查看程序包(Packages / Library)的当前版本和路径（Pandas为例）Python脚本内部、Jupyterpd.__version__获取Pandas版本号，其他程序包也适用pd.__path__获取安装路径pd.show_versions()输出详细信息，包括Python版本和相关程序包以及操作系统类型import pandas as pdprint(pd.__ve...

2020-04-21 21:22:33 4379

原创 Markdown文字颜色、高亮、字体字号设置

文字颜色写法<font color=#0099ff>color #0099ff</font><font color=red>红色</font>color #0099ff红色常用颜色color=marooncolor=greycolor=silvercolor=lightgreycolor=HotPinkcolor=DeepP...

2020-04-18 17:57:03 28798 8

原创 [Python3] Pandas v1.0 —— (三) 层级索引

文章目录五、层级索引（一）多级索引Series1. 低效方法：用Python元组表示索引2. 高效方法：Pandas多级索引3. 高维数据的多维索引（二）多级索引的创建方法1. 显式地创建多级索引2. 多级索引的等级名称3. 多级列索引（三）多级索引的取值和切片1. Series多级索引2. DataFrame多级索引（四）多级索引行列转换1. 有序的索引和无序的索引2. 索引stack与unst...

2020-04-17 19:32:58 1101

转载 Jupyter Notebook常用扩展功能

在命令提示符输入以下命令：pip install jupyter_contrib_nbextensions && jupyter contrib nbextension install然后启动Jupyter Notebook并导航到新的Nbextensions拓展选项卡：接下来启动扩展选项卡（如果没有看到选项卡，打开Notebook并单击Edit>nbextensi...

2020-04-16 00:07:56 1054

原创 [Python3] Pandas v1.0 —— (二) 处理缺失值

文章目录四、处理缺失值（一）选择处理缺失值的方法（二）Pandas的缺失值1. None: Python对象类型的缺失值2. NaN: 数值类型的缺失值3. Pandas中 NaN 与 None 的差异（三）处理缺失值1. 发现缺失值2. 剔除缺失值3. 填充缺失值四、处理缺失值（一）选择处理缺失值的方法在数据表或 DataFrame 中有很多识别缺失值的方法。一般情况下可以分为两种：...

2020-04-15 18:23:23 1223

原创 [Python3] Pandas v1.0 —— (一) 对象、数据取值与运算

文章目录一、Pandas对象(一) Pandas的Series对象(二) Pandas的DataFrame对象(三) Pandas的Index对象二、数据取值与选择(一) Series数据选择方法(二) DataFrame数据选择方法三、Pandas数值运算方法(一) 通用函数：保留索引(二) 通用函数：索引对齐(三) 通用函数：DataFrame与Series的运算import pandas...

2020-04-13 20:12:11 1348

转载 Jupyter Notebook 在 macOS 系统上的快捷键

通过 Anaconda 来管理 Python 的开发环境，其自带 Jupyter Notebook 。借此整理下 Jupyter Notebook 在 macOS 系统上常用的快捷键。Jupyter Notebook 有两种不同的键盘输入模式。「编辑模式」允许你在单元格中键入代码或文本，并由绿色单元格边框指示;「命令模式」将键盘绑定到Notebook命令，并由带有蓝色左边距的灰色单元格边框指示...

2020-04-11 17:21:55 6729

转载在Jupyter Notebook中安装第三方库

pip vs. condapip 可以在所有环境下安装python包。conda 可以在conda环境下安装所有包。如果你已经安装了python，那么这个选择对你来说是非常容易的：如果你是用Anaconda或者Miniconda安装的python，那么请使用conda命令来安装python包。如果conda告诉你你要下载的这个包不存在，那么使用pip(或者试试 conda-forge...

2020-04-11 11:03:41 22555 3

原创 [Python3] NumPy基础

import numpy as np一、创建数组# 1.从python列表创建数组# 整型数组np.array([1, 4, 2, 5, 3])# 明确数据类型np.array([1, 2, 3, 4], dtype='float32')# 嵌套列表构成的多维数组np.array([range(i, i + 3) for i in [2, 4, 6]])# 2.从头创建数组...

2020-04-10 18:10:43 983

原创 Docker部署Hadoop环境+Hive

获取centos7镜像$ docker pull centosOutput:查看镜像列表的命令$ docker imagesOutput:安装SSH以centos7镜像为基础，构建一个带有SSH功能的centos$ vi Dockerfile内容：大意是：以 centos 镜像为基础，安装SSH的相关包，设置了root用户的密码为 pass，并启动SSH服务FROM...

2019-09-20 21:24:33 2889

原创 Docker部署Hadoop - 资源汇总

Docker搭建Hadoop集群 [Mac OS]从 0 开始使用 Docker 快速搭建 Hadoop 集群环境基于Docker搭建Hadoop集群之升级版基于Docker搭建多节点Hadoop集群Docker与VM虚拟机对比：虚拟机与Docker有何不同Docker守护进程可以直接与主操作系统进行通信，为各个Docker容器分配资源；它还可以将容器与主操作系统隔离，并将各个容器互...

2019-09-10 17:37:06 628

原创 [SQL] LeetCode 601. 体育馆的人流量 - [Hard]

601. 体育馆的人流量题目：X 市建了一个新的体育馆，每日人流量信息被记录在这三列信息中：序号 (id)、日期 (visit_date)、人流量 (people)。请编写一个查询语句，找出人流量的高峰期。高峰期时，至少连续三行记录中的人流量不少于100。例如，表 stadium：+------+------------+-----------+| id | visit_date...

2019-08-05 21:18:32 944

原创 [SQL] LeetCode 262. 行程和用户 - [Hard]

262. 行程和用户题目：Trips 表中存所有出租车的行程信息。每段行程有唯一键 Id，Client_Id 和 Driver_Id 是 Users 表中 Users_Id 的外键。Status 是枚举类型，枚举成员为 (‘completed’, ‘cancelled_by_driver’, ‘cancelled_by_client’)。+----+-----------+---------...

2019-07-23 22:28:34 650

原创 [SQL] LeetCode 184. 部门工资最高的员工 - [Medium]

184. 部门工资最高的员工注意：本题于中文版领扣上题目中表信息有误，且与SQL架构不一致，因此我将题目改为英文原版题目内容，可参考：184. Department Highest Salary题目：Employee 表包含所有员工信息，每个员工有其对应的 Id, salary 和 department Id。+----+-------+--------+--------------+|...

2019-07-23 19:25:10 709

原创 [SQL] MySQL实现多种排名查询

示例：Scores 表如下：+----+-------+| Id | Score |+----+-------+| 1 | 3.50 || 2 | 3.65 || 3 | 4.00 || 4 | 3.85 || 5 | 4.00 || 6 | 3.65 |+----+-------+SQL架构：点击此处一、普通排名（排名无并列）按成绩排序后的...

2019-07-23 18:05:34 3228

原创 [SQL] LeetCode 178. 分数排名 - [Medium]

178. 分数排名题目：编写一个 SQL 查询来实现分数排名。如果两个分数相同，则两个分数排名（Rank）相同。请注意，平分后的下一个名次应该是下一个连续的整数值。换句话说，名次之间不应该有“间隔”。+----+-------+| Id | Score |+----+-------+| 1 | 3.50 || 2 | 3.65 || 3 | 4.00 || 4 | ...

2019-07-23 16:44:35 661

转载 [SQL] MySQL用户自定义变量

MySQL用户自定义变量详解你可以利用SQL语句将值存储在用户自定义变量中，然后再利用另一条SQL语句来查询用户自定义变量。这样以来，可以再不同的SQL间传递值。用户自定义变量的声明方法形如：@var_name，其中变量名称由字母、数字、“.”、“_” 和 “$” 组成。当然，在以字符串或者标识符引用时也可以包含其他字符（例如：@‘my-var’，@“my-var”，或者@`my-var`）。...

2019-07-23 15:12:32 2105 1

空空如也

空空如也