ProfMoriarty-CSDN博客

转载 Deep Learning常见术语

参数：不需要人为定制的，机器自己学习的预测模型的数据超参数：需要人为定制的，用来改善模型的数据激活函数：用于每一层的输出时对函数进行非线性变化，包括Sigmoid函数、Tanh (双曲正切函数)、ReLu (线性修正单元)偏置顶：调整函数使函数满足对应截距https://blog.csdn.net/Uwr44UOuQcNsUQb60zk2/article/details/81074408下采样(降采样)：缩小图像，最终把原始图像s*s窗口内的图像变成一个像素点，像素点的值就是窗口内所有像素的均值上

2022-05-05 16:46:36 495

转载聚类算法——Kmeans

目录# Kmeans# Kmeans与KNN的区别KmeansKNNK的含义K是人工固定好的数字，假设数据集合可以分为K个簇，由于是依靠人工定好，需要一点先验知识来了一个样本x，要给它分类，即求出它的y，就从数据集中，在x附近找离它最近的K个数据点，这K个数据点，类别c占的个数最多，就把x的label设为c区别1.K-Means是聚类算法2.非监督学习3.喂给它的数据集是无label的数据，是杂乱无章的，经过聚类后才变得有点顺序，先无序，后有序4.有明显的前期训练过

2021-05-28 16:43:33 852

原创 Bagging（引导聚集算法）简述

目录1 概念2 原理2.1 方差2.2 模型的偏差与方差1 概念 Bagging算法（Bootstrap aggregating，引导聚集算法），又称装袋算法，是机器学习领域的一种团体学习算法。 Bagging算法可与其他分类、回归算法结合，提高其准确率、稳定性的同时，通过降低结果的方差，避免过拟合的发生。b

2021-05-11 12:15:00 1538

原创偏差、方差、标准差、协方差

目录1 期望值（Expectation）2 偏差（Bias）3 方差（Variance）3.1 总体方差（Population Variance）3.2 样本方差（Sample Variance）4 标准差（Deviation）4.1 总体标准差（Population Standard Deviation）4.2 样本标准差（Sample Standard Deviation）5 协方差（Covariance）5.1 协方差（Covariance）5.2 协方差矩阵（Covariance Matrix）5.

2021-05-06 15:14:30 4711

转载 timedelta数据列转换为int或float

td为timedelta column解法一：import numpy as np(td / np.timedelta64(1, 'D')).astype(int)解法二（更方便）：td.dt.days语法返回链接pandas.Series.dt.daysNumber of days for each element.官方文档pandas.Series.dt.secondsNumber of seconds (>= 0 and less than 1

2021-03-19 15:09:56 1844

翻译 DataFrame的字符类型dtypes为什么是object,而不是str

原因：因为字符串长度是不固定的，pandas没有选择用字节字符串的形式而是用了object，存储为指针，而非比特。A: The dtype object comes from NumPy, it describes the type of element in a ndarray. Every element in an ndarray must have the same size in bytes. For int64 and float64, they are 8 bytes. But for s

2021-03-19 11:44:22 2982

转载正态性检验

AD检验(Anderson-Darling test)安德森-达令检验样本数据是否来自特定分布，包括分布：‘norm’, ‘expon’, ‘gumbel’, ‘extreme1’ or ‘logistic’.原假设 H0：样本服从特定分布；备择假设 H1：样本不服从特定分布返回：anderson 有三个输出值，第一个为统计数，第二个为评判值，第三个为显著性水平，评判值与显著性水平对应对于正态性检验，显著性水平为：15%, 10%, 5%, 2.5%, 1%如果输出的统计量值statistic

2021-03-18 10:06:08 3444

转载 cursor游标讲解

目录1、什么是游标？2、使用游标的好处？3、利用python连接数据库1）以python连接mysql数据库为例2）使用游标的操作步骤4、案例讲解1、什么是游标？游标，通俗的解释就是"游动的标志"，这是数据库中一个很重要的概念。有时候，我们执行一条查询语句的时候，往往会得到N条返回结果，执行sql语句取出这些返回

2021-03-15 07:58:44 3652

转载 Python Pandas与Numpy中axis参数的二义性

python中的axis究竟是如何定义的呢？他们究竟代表是DataFrame的行还是列？考虑以下代码：>>>df = pd.DataFrame([[1, 1, 1, 1], [2, 2, 2, 2], [3, 3, 3, 3]], \columns=["col1", "col2", "col3", "col4"])>>>df col1 col2 col3 col4 0 1 1 1 1 1 2

2021-03-11 16:20:50 188

转载 Bloom Filter概念和原理

Bloom Filter是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的：在判断一个元素是否属于某个集合时，有可能会把不属于这个集合的元素误认为属于这个集合（false positive）。因此，Bloom Filter不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下，Bloom Filter通过极少的错误换取了存储空间的极大节省。集合表示和元素查询下面我们具体来看Bloom Filter

2021-03-09 13:18:31 171

转载 ETL讲解（很详细！！！）

目录前言一、数据的抽取（Extract）二、数据的清洗转换（Cleaning、Transform）三、ETL日志&警告发送后记前言 ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。通常情况下，在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关

2021-03-08 12:32:12 883

转载 ETL流程介绍&常用实现方法

目录一、概述二、使用步骤1.引入库2.读入数据总结一、概述 ETL是英文Extract-Transform-Load 的缩写，用来描述将数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的过程。常见于数据仓库开发中将数据由业务系统归集到数据仓库（DW: DataWarehouse）或者数据集市的过程。ETL是BI项目重要的一个环节。通常情况下，在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的

2021-03-08 07:38:58 8100

转载数仓简介：ODS、DW和DM概念区分

目录ODS——操作性数据DW——数据仓库DM——数据集市2.数据仓库的ODS、DW和DM概念ODS——操作性数据DW——数据仓库DM——数据集市1.数据中心整体架构数据中心整体架构数据仓库的整理架构，各个系统的元数据通过ETL同步到操作性数据仓库ODS中，对ODS数据进行面向主题域建模形成DW（数据仓库），DM是针对某一个业务领域建立模型，具体用户（决策层）查看DM生成的报表。2.数据仓库的ODS、DW和DM概念概念定义特征个人理解ODS &

2021-03-07 14:34:43 1970

原创《Python数据分析与数据化运营》学习笔记§1

1.1 用python做数据化运营1. 数据化运营的意义提高运营决策效率提高运营决策正确性优化运营执行过程（标准化、数据化）提升投资回报2. 数据化运营的方式辅助决策式：是运营的决策支持数据驱动式：将业务流程、逻辑、技巧封装为特定应用3. 工作流程...

2021-03-02 00:54:38 846

原创《Python数据分析与数据化运营》学习笔记§2

《Python数据分析与数据化运营》学习笔记§22.2 使用python获取运营数据read_table() 参数sep与delimiter的区别sep :字符串，分割符，默认值为‘，’。如果sep为None，则C引擎无法自动检测分隔符，但Python解析引擎可以检测，这意味着将使用后者，并通过Python的内置嗅探器csves.niffer自动检测分隔符。此外，长度大于1个字符的分隔符将被解释为正则表达式,并强制使用Python解析引擎。正则表达式示例：’\r\t’delimiter :字符

2020-12-19 19:11:48 1074 1

原创用户体验与行为数据

用户体验与行为数据SUS（System Usability Scale系统可用性量表）相比较介绍系统可用性量表而言，其设计思路和验证为什么这个量表的可行性更为重要。在理解了其设计方式之后，或许就能够突破原先的应用领域如“应用迭代，网页迭代等”而进入到更为广泛的领域。SUS是在评估系统或产品感知可用性时最广泛的工具之一。他最初是由John Brooke在1986年编制的，它包括10个陈述句，用户需要对于他们同意这些句子的程度进行评分。其中一半的项目是正向叙述，另一半是负向叙述，每个句子都使用5点同意标

2020-12-01 23:54:38 1465 1

原创谁说菜鸟不会数据分析》学习笔记-2

《谁说菜鸟不会数据分析》学习笔记-2数据分析报告1、作用展示分析结果、验证分析质量、为决策者提供参考依据2、原则规范性：名词术语规范、标准统一、前后一致重要性：体现分析重点谨慎性：数据真实完整，过程科学、合理、全面，结果可靠创新性：适时引入新的研究模型或分析方法3、类型专题分析报告内容单一，不求反应全貌，要求深入分析综合分析报告全面性，反应总体特征，作出总体评价联系性：在系统分析指标体系的基础上，考察现象之间的内外部联系日常数据通报进度性：执行进度与时间进展结合

2020-12-01 12:41:53 228

原创《谁说菜鸟不会数据分析》学习笔记-1

《谁说菜鸟不会数据分析》学习笔记1、现状分析1.1 对比分析同级类别的对比，横比时间维度上的对比，纵比实际完成值与目标对比行业内对比1.2 分组分析定性分组，即结构分析，计算各组分所占比重定量分析，即分布分析，将数值型数据等距或不等距分组，研究各组分布规律。1.3 交叉分析一维表变二维表或多维表1.4 RFM分析R、F、M值按照高低交叉组合为8个客户群体R、F、M值取1~5。RFM = 100 * R + 10 * F + 1 * M1.5 矩阵关联分析即象限

2020-12-01 10:03:18 223

转载 python面试题精讲——monkey patch（猴子补丁）

本次依然是选自python面试题系列，将一个比较偏的概念，可能很多人没怎么听说过——猴子补丁，其实所讲的内容很简单，它得益于python灵活的语法、一切皆对象的思想，一起来看看看看吧！目录一、什么是monkey patch二、monkey patch的功能简介2.1 运行时动态改变类的方法2.2 monkey patch的应用场景一、什么是monkey patch为什么叫猴子补丁？这其实是一个很难回答的问题，似乎和Python语言没啥关系，而且也和它所实现的功能扯不上什么关系，但是偏偏就这么叫

2020-07-27 10:19:14 506

转载程序运行之栈空间

一般来讲，应用程序使用的内存空间里有如下的默认区域：1 栈：用于维护函数调用的上下文。栈通常在用户空间的最高地址出分配，通常有数兆字节的大小2 堆：堆是用来容纳应用程序动态分配的内存区域。比如使用malloc和new分配内存就从堆里分配。3 可执行文件镜像：这里存储着可执行文件在内存里的映射首先来介绍栈：在操作系统中，栈总是向下增长的，栈顶由称为esp的寄存器进行定位，压栈的操作使栈顶的地址减小，弹出的操作使栈顶的地址增大。栈保存了一个函数调用所需要维护的信息，这通常称为堆栈帧或活动记录。堆栈帧包

2020-07-27 07:54:45 466

weixin_42508236的博客