自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 Sql之面试题总结

1. 每月及截止当月的答题情况【题目】:现有试卷作答记录表exam_record(uid用户ID, exam_id试卷ID, start_time开始作答时间, submit_time交卷时间, score得分)请输出自从有用户作答记录以来,每月的试卷作答记录中月活用户数、新增用户数、截止当月的单月最大新增用户数、截止当月的累积用户数:【解题思路】:Keywords:活跃用户数、新增用户数、截止当月单月新增最大、截止当月的累积用户数活跃用户数:每月有提交记录的用户COUNT(DISTIN

2022-03-04 21:04:52 2299

原创 SQL之常用函数

窗口函数窗口函数,可以对数据库数据进行实时分析处理:同时具有分组(partition by)和排序(order by)的功能不减少原表的行数,所以经常用来在每组内排名窗口函数原则上只能写在select子句中语法<窗口函数> over (partition by <用于分组的列名> order by <用于排序的列名>)<窗口函数>的位置,可以放以下两种函数:静态窗口函数排名函数,如rank,den

2022-03-04 19:03:21 4724

原创 4.查找算法(python)

写在前面小弟初识数据结构与算法,本文是个人的学习记录4. 查找4.1 算法综述查找(Searching)的主要作用是通过一定的方法,在一些(有序或无序的)数据元素中找出与给定关键值相同的数据元素按照操作方式可分成两种类别:静态查找表:仅进行查找操作,不能改变表中的数据元素动态查找表:在查找的同时进行创建、扩充、修改、删除等操作具体的:查找算法特性:算法结构时间复杂度ASL(平均查找长度)最坏情况查找长度线性查找随意O(N)(N+1)/2N+1

2022-02-27 20:57:36 1319

原创 3. 排序算法(python)

3. 排序3.0 算法综述排序算法特性:算法最好情况一般情况最坏情况空间复杂度稳定排序原地排序冒泡排序Ω(N)\Omega(N)Ω(N)θ(N2)\theta(N^2)θ(N2)O(N2)O(N^2)O(N2)O(1)O(1)O(1)是是快速排序Ω(NlogN)\Omega(NlogN)Ω(NlogN)θ(NlogN)\theta(NlogN)θ(NlogN)O(N2)O(N^2)O(N2)O(logN)O(logN)O(logN)不是是

2022-02-27 19:30:57 441

原创 python数据分析与挖掘实战—第5章(挖掘建模)(3)

时序模式常用时间序列模型如下:模型名称描述平滑法利用修匀技术,削弱短期随机波动的影响,包括移动平均法和指数平滑法趋势拟合法建立回归模型,分为线性拟合和曲线拟合组合模型长期趋势、季节变动、周期变动和不规则变动,分为加法模型和乘法模型AR模型以前p期的序列值为自变量建立线性回归模型MA模型以前q期随机扰动为自变量建立线性回归模型ARMA模型AR+MA综合ARIMA模型差分平稳序列ARCH模型序列具有异方差性并且异方差函数短期自相关

2021-02-01 18:58:53 1971 3

原创 第8章 中医证型关联规则挖掘

8.1 背景与挖掘目标借助患者的病理信息,挖掘患者的症状与中医证型之间的关联关系对截断治疗提供依据,挖掘潜性证素8.2 分析方法与过程数据收集与整理,问卷调查、将问卷信息整理成原始数据数据预处理,包括数据清洗、属性规约、数据变换构建模型:关联规则算法,调整模型输入参数,获取各中医证素与乳腺癌TNM分期之间的关系结合实际业务,对模型结果进行分析,且将模型结果应用到实际业务中,最后输出关联规则结果流程图如下:8.2.1 数据获取拟定调查问卷表并形成原始指标表定义纳入标准与排除标

2021-01-28 18:43:58 3110 2

原创 第二章 监督学习(3)

用于分类的线性模型对于用于回归的线性模型,输出是特征的线性函数,是直线、平面或超平面对于用于分类的线性模型,决策边界是输入的线性函数。(二元)线性分类器利用直线、平面或超平面来分开两个类别的分类器最常见的两种线性分类算法是Logistic回归(logistic regression,LR)和线性支持向量机(linear support vector machine, 线性SVM)注:转自https://blog.csdn.net/ztf312/article/details/88606667两

2021-01-28 16:09:11 104

原创 Linear regression

1. 目的:预测红酒的品质(0-10)0:代表最差10:代表最好2. Exporing the data导入数据:#wine-red线性回归import pandas as pddf = pd.read_csv('G:/机器学习/Linear regression/data/winequality-red.csv', sep=';')df.head()描述统计(部分):Note the summary for the quality variable; most of the

2021-01-28 16:00:56 413

原创 python数据分析与挖掘实战—第5章(挖掘建模)(2)

分类与预测算法评价Kappa统计Kappa统计是比较两个或多个观测者对同一事物,或观测者对同一事物的两次或多次观测结果是否一致,以由于机遇造成的一致性和实际观测的一致性之间的差别大小作为评价基础的统计指标。Kappa统计量和加权Kappa统计量不仅可以用于无序和有序分类变量资料的一致性、重现性检验,而且能给出一个反映一致性大小的“量”值。Kappa = +1:说明两次判断的结果完全一致Kappa = -1 :说明两次判断的结果完全不一致Kappa = 0 :说明两次判断的结果是机遇造成Kap

2021-01-27 20:12:16 1674

原创 第7章 航空公司客户价值分析

7.1 背景与挖掘目标#mermaid-svg-pSOZht4gcYalVLS4 .label{font-family:'trebuchet ms', verdana, arial;font-family:var(--mermaid-font-family);fill:#333;color:#333}#mermaid-svg-pSOZht4gcYalVLS4 .label text{fill:#333}#mermaid-svg-pSOZht4gcYalVLS4 .node rect,#mermaid-s.

2021-01-24 16:58:47 5641 3

原创 python数据分析与挖掘实战—第5章(挖掘建模)(1)

经过数据探索与数据预处理,得到了可以直接建模的数据。根据数据挖掘目标和数据形式:5.1 分类与预测分类:预测分类标号(离散属性),构造一个分类模型,输入样本的属性值,输出对应的类别,将每个样本映射到预先定义好的类别。分类模型建立在已有类标记的数据集上,模型在已有样本上的准确率可以方便计算,所以分类属于有监督的学习。预测:建立连续值函数模型,预测给定自变量对应的因变量的值,建立两种或两种以上变量间相互依赖的函数模型,然后进行预测或控制。5.1.1 实现过程分类算法:第一步:学习步通过归纳分析

2021-01-22 19:14:13 2104

原创 python数据分析与挖掘实战—第4章(数据预处理)

数据预处理一方面要提高数据的质量,另一方面要让数据更好地适应特点的挖掘技术或工具数据处理的主要内容包括:数据清洗数据集成数据变换数据归约4.1 数据清洗数据清洗主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值、异常值等。4.1.1 缺失值处理删除记录数据插补不处理删除记录在缺失值所占比例比较小的情况下,这一方法十分有效。然而,这种方法却又很大的局限性,它是以减少历史数据来换取数据的完备,会造成资源的大量浪费,将丢弃了大量隐藏

2021-01-20 18:10:51 1809

原创 python数据分析与挖掘实战—第3章(数据探索)

通过检验数据集的数据质量、绘制图表、计算某些特征量等手段,对样本数据集的结构和规律进行分析的过程就是数据探索。数据探索有助于选择合适的数据预处理和建模方法,甚至可以完成一些通常由数据挖掘解决的问题。3.1 数据质量分析数据质量分析的主要任务是检查原始数据中是否存在脏数据1. 缺失值使用简单的统计分析,可以得到含有缺失值的属性的个数,以及每个属性的未缺失数、缺失数与缺失率。从总体上来说,缺失值的处理分为删除存在缺失值的记录、对可能值进行插补和不处理3种情况。2. 异常值简单统计量分析(描述性统计

2021-01-17 20:40:44 1071

原创 python数据分析与挖掘实战—数据挖掘基础

从大量数据(包括文本)中挖掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提高预测性决策支持的方法、工具和过程,就是数据挖掘;它是利用各种分析工具在大量数据中寻找其规律和发现模型与数据之间关系的过程,是统计学、数据库技术和人工智能技术的综合。数据挖掘建模过程#mermaid-svg-PbWtIiTOVhcLUp4M .label{font-family:'trebuchet ms', verdana, arial;font-family:var(--me

2021-01-17 19:08:43 399

原创 第二章 监督学习(2)

2.3.3 线性模型1. 用于回归的线性模型在一维wave数据集上举例:#导入相关库import pandas as pdimport numpy as npimport mglearnimport matplotlib.pyplot as plt%matplotlib inline#wave数据集X,y = mglearn.datasets.make_wave(n_samples=40)mglearn.plots.plot_linear_regression_wave()输出结

2021-01-14 20:32:27 148

原创 第二章 监督学习(1)

第二章 监督学习监督学习主要利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程预测某个结果,并且还有输入/输出对的示例2.1 分类与回归监督机器学习问题主要有两种:分类回归分类问题的目标是预测标签,这些标签来自预定义的可选列表,例如鸢尾花分类、垃圾邮件识别回归问题的目标是预测一个连续值(浮点数),例如预测收入区分两者有一个简单方法,就是问一个问题:输出是否具有某种连续性2.2 泛化、过拟合与欠拟合在监督学习中,我们想要在训练数据上构建模型,然后能够对没见过的新数据(这

2021-01-13 19:25:47 460

原创 鸢尾花实例

鸢尾花实例1.初识数据集#导入数据集from sklearn.datasets import load_irisimport pandas as pdiris_dataset = load_iris()#数据集的简要说明print('Keys of iris_dataset: \n{}'.format(iris_dataset.keys()))print('Target names:{}'.format(iris_dataset['target_names']))print('Featu

2021-01-05 21:04:55 469

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除