不断努力的统计小张-CSDN博客

原创 Sql之面试题总结

1. 每月及截止当月的答题情况【题目】：现有试卷作答记录表exam_record（uid用户ID, exam_id试卷ID, start_time开始作答时间, submit_time交卷时间, score得分）请输出自从有用户作答记录以来，每月的试卷作答记录中月活用户数、新增用户数、截止当月的单月最大新增用户数、截止当月的累积用户数：【解题思路】：Keywords：活跃用户数、新增用户数、截止当月单月新增最大、截止当月的累积用户数活跃用户数：每月有提交记录的用户COUNT(DISTIN

2022-03-04 21:04:52 2455

原创 SQL之常用函数

窗口函数窗口函数，可以对数据库数据进行实时分析处理：同时具有分组（partition by）和排序（order by）的功能不减少原表的行数，所以经常用来在每组内排名窗口函数原则上只能写在select子句中语法<窗口函数> over (partition by <用于分组的列名> order by <用于排序的列名>)<窗口函数>的位置，可以放以下两种函数：静态窗口函数排名函数，如rank，den

2022-03-04 19:03:21 5815

原创 4.查找算法（python）

写在前面小弟初识数据结构与算法，本文是个人的学习记录4. 查找4.1 算法综述查找(Searching)的主要作用是通过一定的方法，在一些(有序或无序的)数据元素中找出与给定关键值相同的数据元素按照操作方式可分成两种类别：静态查找表：仅进行查找操作，不能改变表中的数据元素动态查找表：在查找的同时进行创建、扩充、修改、删除等操作具体的：查找算法特性：算法结构时间复杂度ASL(平均查找长度)最坏情况查找长度线性查找随意O(N)(N+1)/2N+1

2022-02-27 20:57:36 1471

原创 3. 排序算法（python）

3. 排序3.0 算法综述排序算法特性：算法最好情况一般情况最坏情况空间复杂度稳定排序原地排序冒泡排序Ω(N)\Omega(N)Ω(N)θ(N2)\theta(N^2)θ(N2)O(N2)O(N^2)O(N2)O(1)O(1)O(1)是是快速排序Ω(NlogN)\Omega(NlogN)Ω(NlogN)θ(NlogN)\theta(NlogN)θ(NlogN)O(N2)O(N^2)O(N2)O(logN)O(logN)O(logN)不是是

2022-02-27 19:30:57 492

原创 python数据分析与挖掘实战—第5章(挖掘建模)（3）

时序模式常用时间序列模型如下：模型名称描述平滑法利用修匀技术，削弱短期随机波动的影响，包括移动平均法和指数平滑法趋势拟合法建立回归模型，分为线性拟合和曲线拟合组合模型长期趋势、季节变动、周期变动和不规则变动，分为加法模型和乘法模型AR模型以前p期的序列值为自变量建立线性回归模型MA模型以前q期随机扰动为自变量建立线性回归模型ARMA模型AR+MA综合ARIMA模型差分平稳序列ARCH模型序列具有异方差性并且异方差函数短期自相关

2021-02-01 18:58:53 2199 3

原创第8章中医证型关联规则挖掘

8.1 背景与挖掘目标借助患者的病理信息，挖掘患者的症状与中医证型之间的关联关系对截断治疗提供依据，挖掘潜性证素8.2 分析方法与过程数据收集与整理，问卷调查、将问卷信息整理成原始数据数据预处理，包括数据清洗、属性规约、数据变换构建模型：关联规则算法，调整模型输入参数，获取各中医证素与乳腺癌TNM分期之间的关系结合实际业务，对模型结果进行分析，且将模型结果应用到实际业务中，最后输出关联规则结果流程图如下：8.2.1 数据获取拟定调查问卷表并形成原始指标表定义纳入标准与排除标

2021-01-28 18:43:58 3588 2

原创第二章监督学习（3）

用于分类的线性模型对于用于回归的线性模型，输出是特征的线性函数，是直线、平面或超平面对于用于分类的线性模型，决策边界是输入的线性函数。（二元）线性分类器利用直线、平面或超平面来分开两个类别的分类器最常见的两种线性分类算法是Logistic回归（logistic regression，LR)和线性支持向量机（linear support vector machine, 线性SVM）注：转自https://blog.csdn.net/ztf312/article/details/88606667两

2021-01-28 16:09:11 201

原创 Linear regression

1. 目的：预测红酒的品质（0-10）0：代表最差10：代表最好2. Exporing the data导入数据：#wine-red线性回归import pandas as pddf = pd.read_csv('G:/机器学习/Linear regression/data/winequality-red.csv', sep=';')df.head()描述统计(部分)：Note the summary for the quality variable; most of the

2021-01-28 16:00:56 526

原创 python数据分析与挖掘实战—第5章(挖掘建模)（2）

分类与预测算法评价Kappa统计Kappa统计是比较两个或多个观测者对同一事物，或观测者对同一事物的两次或多次观测结果是否一致，以由于机遇造成的一致性和实际观测的一致性之间的差别大小作为评价基础的统计指标。Kappa统计量和加权Kappa统计量不仅可以用于无序和有序分类变量资料的一致性、重现性检验，而且能给出一个反映一致性大小的“量”值。Kappa = +1：说明两次判断的结果完全一致Kappa = -1 ：说明两次判断的结果完全不一致Kappa = 0 ：说明两次判断的结果是机遇造成Kap

2021-01-27 20:12:16 1987

原创第7章航空公司客户价值分析

7.1 背景与挖掘目标#mermaid-svg-pSOZht4gcYalVLS4 .label{font-family:'trebuchet ms', verdana, arial;font-family:var(--mermaid-font-family);fill:#333;color:#333}#mermaid-svg-pSOZht4gcYalVLS4 .label text{fill:#333}#mermaid-svg-pSOZht4gcYalVLS4 .node rect,#mermaid-s.

2021-01-24 16:58:47 6532 3

原创 python数据分析与挖掘实战—第5章（挖掘建模）（1）

经过数据探索与数据预处理，得到了可以直接建模的数据。根据数据挖掘目标和数据形式：5.1 分类与预测分类：预测分类标号（离散属性），构造一个分类模型，输入样本的属性值，输出对应的类别，将每个样本映射到预先定义好的类别。分类模型建立在已有类标记的数据集上，模型在已有样本上的准确率可以方便计算，所以分类属于有监督的学习。预测：建立连续值函数模型，预测给定自变量对应的因变量的值，建立两种或两种以上变量间相互依赖的函数模型，然后进行预测或控制。5.1.1 实现过程分类算法：第一步：学习步通过归纳分析

2021-01-22 19:14:13 2287

原创 python数据分析与挖掘实战—第4章（数据预处理）

数据预处理一方面要提高数据的质量，另一方面要让数据更好地适应特点的挖掘技术或工具数据处理的主要内容包括：数据清洗数据集成数据变换数据归约4.1 数据清洗数据清洗主要是删除原始数据集中的无关数据、重复数据，平滑噪声数据，筛选掉与挖掘主题无关的数据，处理缺失值、异常值等。4.1.1 缺失值处理删除记录数据插补不处理删除记录在缺失值所占比例比较小的情况下，这一方法十分有效。然而，这种方法却又很大的局限性，它是以减少历史数据来换取数据的完备，会造成资源的大量浪费，将丢弃了大量隐藏

2021-01-20 18:10:51 2068

原创 python数据分析与挖掘实战—第3章（数据探索）

通过检验数据集的数据质量、绘制图表、计算某些特征量等手段，对样本数据集的结构和规律进行分析的过程就是数据探索。数据探索有助于选择合适的数据预处理和建模方法，甚至可以完成一些通常由数据挖掘解决的问题。3.1 数据质量分析数据质量分析的主要任务是检查原始数据中是否存在脏数据1. 缺失值使用简单的统计分析，可以得到含有缺失值的属性的个数，以及每个属性的未缺失数、缺失数与缺失率。从总体上来说，缺失值的处理分为删除存在缺失值的记录、对可能值进行插补和不处理3种情况。2. 异常值简单统计量分析（描述性统计

2021-01-17 20:40:44 1305

原创 python数据分析与挖掘实战—数据挖掘基础

从大量数据（包括文本）中挖掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势，并用这些知识和规则建立用于决策支持的模型，提高预测性决策支持的方法、工具和过程，就是数据挖掘；它是利用各种分析工具在大量数据中寻找其规律和发现模型与数据之间关系的过程，是统计学、数据库技术和人工智能技术的综合。数据挖掘建模过程#mermaid-svg-PbWtIiTOVhcLUp4M .label{font-family:'trebuchet ms', verdana, arial;font-family:var(--me

2021-01-17 19:08:43 476

qq_42720463的博客