自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 笔试 - 图形推理

一、考点二、位置规律1、平移2、旋转、翻转

2024-08-14 11:53:42 187

原创 有限与无限游戏

我们忘记了自己曾被观众们忘记,王阳明如果被贬到龙场的时候,他一天到晚脑子里想的都是那些观众,说大家会怎么看,朝廷上的人会怎么看,老百姓们会怎么看,收不到我的诗怎么办。大家拥有游戏的自由,你可以辞职,你可以来一场说走就走的旅行,你可以突然成为一个诗人,因为你有选择游戏的权利,你有选择不参加游戏的权利。除非胜利者的头衔能被他人看到,否则这些头衔毫无价值,从未被看到,联系在一起的便是无头衔,就是你相当于没有头衔,你上过清华了,但是没什么,因为没人看到。只玩有限游戏的人最在意观众的看法,以及所获得的头衔与奖励。

2024-08-11 16:07:59 770

原创 MYSQL必知必会 - (三)使用Mysql +(四)检索数据

关键字也可以用于多个列,以确保每一行中指定列的组合是唯一的。返回的是列组合的唯一记录。是你要选择的数据库的名称。选择数据库后,所有后续的 SQL 操作将针对该数据库进行。如果使用默认模式,模式名可以省略。4. 查看错误和警告: 要查看 MySQL 最近的错误信息,可以使用。这样会删除重复的行,只返回每个唯一值的一次出现。:指定要使用的 MySQL 用户名(例如。要从表中检索某一列中的唯一值,可以使用。要查看最近的警告信息,可以使用。要从表中检索所有列的数据,可以使用。要从表中检索多个列的数据,可以在。

2024-08-11 11:43:20 501

原创 MYSQL必知必会 - (一)了解sql + (二)MySQL简介

MySQL 是一种关系型数据库管理系统(RDBMS),用于存储、管理和检索结构化数据。

2024-08-11 10:46:56 324

原创 Mysql — 刷题知识点

ALL ON 数据对象名, SELECT ON 数据对象名, UPDATE ON 数据对象名,具体来说,如果此题再加一条记录 ('1114', '张三', '2000-08-06', '男'), 则答案会是 5。在 SQL 中,"触发器"(Trigger)是一种特殊的存储过程,它会在数据库中的特定事件发生时自动执行。DROP 一般删除表的,视图是虚拟表,本质还是从真实表中获取数据,它是在使用的时候动态的从真实表中查出来的。

2024-04-25 17:04:54 749

原创 sql — 窗口函数

统计窗口函数则用于进行统计计算,包括count、sum、avg、min、max、first_value、last_value、lag、lead、cume_dist。排序窗口函数主要用于对数据进行排序和排名,包括row_number、rank、dense_rank、percent_rank、ntile;与常规聚合函数不同,窗口函数可以在不影响查询结果集的情况下,对结果集中的每一行应用函数,生成额外的信息,例如排名、累计和等。count函数计算结果集中行的数量,可以结合分组函数使用,用于统计分组内的行数。

2024-04-25 14:08:20 3778 1

原创 机器学习笔记(二)回归

当向模型添加越来越多的变量时,模型可能变得过于复杂,并且通常最终会记住训练集中的所有数据点,这种现象称为模型的过拟合,导致高训练准确率和非常低的测试准确率。线性回归中,预测值(predicted)与观测值的差值称为残差,残差的本质是模型的随机误差(Random Error),是必然存在且不可学习的参数。最优拟合线指的是线性回归模型中的一条直线,它是通过拟合训练数据得出的,使得这条直线与训练数据的残差(观测值与模型预测值之间的差异)之和最小化。模型的预测误差的大小,数值越小表示模型的预测能力越好。

2024-04-24 14:51:19 2641

原创 机器学习笔记(一)基本概念

并不是为了得到最后的运算结果,而是。

2024-04-24 08:44:52 652

原创 数据分析 - 面试题

可以是关于业务的问题,例如提高销售额、降低成本,或者是关于数据的问题,例如探索数据集、发现模式或预测趋势。(3)数据清洗和预处理:在分析前需要清洗和预处理数据,处理缺失值、异常值、重复数据等问题。还包括数据的转换和标准化,以确保数据的一致性和可用性。(4)探索性数据分析(EDA):探索数据,了解数据的基本特征、分布和相关性。整个数据分析流程先收集有关网站访问、用户交互和购买历史的数据,对数据进行清洗,处理缺失数据和异常值。(5)特征工程:根据问题的要求选择、转换或创建新的特征,以提高模型的性能和准确性。

2024-04-23 10:21:05 211

原创 标准 数字化

是实现国际和区域标准化机构、国家标准化机构、标准制定组织、标准开发人员、出版商发布和交换标准全文内容和元数据的重要基础。NISO STS●主要技术方案:基于 ISO 标准标签集(NISO STS)的通用 XML 格式标准美国国家信息标准化组织(NISO)标准标签套件(Standard Tag Set,STS)该标准是标准文档 XML 编码的标准,其目标是实现标准文档的可处理版本的交换。目前,ISO、IEC、CEN-CENELEC 和各个成员都在使用NISO STS。

2024-04-22 10:39:56 784

原创 AB测试— 知识点总结

AB测试其实就是随机均匀样本组的对照实验1、什么是AB测试?AB测试其实来源于假设检验,我们现在有两个随机均匀的样本组A、B,对其中一个组A做出某种改动,实验结束后分析两组用户行为数据,通过显著性检验,判断这个改动对于我们所关注的核心指标是否有显著的影响。在这个实验中,我们的假设检验如下:原假设H0:这项改动不会对核心指标有显著的影响备选假设H1:这项改动会对核心指标有显著影响如果我们在做完实验之后,通过显著性检验发现P值足够小,我们则推翻原假设,证明这项改动会对我们所关注的核心指标产生显著影响。

2024-04-18 11:51:23 2141 2

原创 假设检验 知识点总结

P值是在零假设为真的条件下,观察到的样本统计量或更极端情况出现的概率,它用于衡量数据与零假设之间的不一致程度。如图2所示,如果观测到的数据出现在概率小于p值的区域,即p值小于或等于显著性水平(α),说明我们的零假设不正确,因为在零假设情况下基本不会出现这种情况。图中,统计功效是除去第二类错误的部分。适用场景:当样本量小(少于30)且总体方差未知时,用t检验来比较样本均值与总体均值(单样本t检验),或比较两个独立样本的均值(独立样本t检验),或比较同一组个体在不同条件下的均值(配对样本t检验)。

2024-04-17 15:27:23 996

原创 数据分析中的统计学

点估计就是 用随 机 抽 样的 样 本的计 算 出 来 的 指 标 值去估 计 整 体 指 标情 况。

2024-04-17 11:47:48 872

原创 深入浅出统计学(十)—— 统计抽样的运用

通过在总体抽取一个好的样本,使其具有代表性,即样本具有与总体十分相似的特性,进而可以根据样本来预测总体的特性,比如数据中心相同。

2024-04-17 11:01:12 634

原创 深入浅出统计学(九)—— 再谈正态分布的运用

在研究综合正态变量的时候,想办法求出X+Y的分布是十分有用的。如果独立随机变量X和Y均符合正态分布,那么可以得知X+Y也一定符合正态分布。在两个变量相加之后,实际上会增大了变异性,因此新分布的方差会增大,图形拉长,而为了保持图形总面积始终为1,因此图形同时也随之变扁。

2024-04-17 10:36:57 463

原创 深入浅出统计学(八)——正态分布的运用

概率密度函数(Probability Density Function, PDF)是描述连续型随机变量的概率分布的函数,通常用 f(x) 表示。概率 = 面积。

2024-04-17 10:01:38 1206

原创 深入浅出统计学(七)——几何分布、二项分布及泊松分布

几何分布 通常用于描述在中,。设 X 表示首次成功所需的试验次数,则 X 服从参数为 p 的几何分布,记为X∼Geo(p)。

2024-04-16 22:57:10 949

原创 深入浅出统计学(六)— 排列与组合

现有N匹赛马,那么它们所有可能的排列顺序为N!。

2024-04-16 21:56:12 150

原创 深入浅出统计学(五)— 离散概率分布的运用

方差是衡量随机变量离其均值的距离的一种度量,表示随机变量的分散程度或波动程度。方差越大,表示随机变量的取值相对于其均值的波动越大;方差越小,表示随机变量的取值相对于其均值的波动越小。离散概率分布是描述离散型随机变量可能取值的概率情况的数学函数或表格。概率密度函数给出了每个可能取值的密度(即在该点附近的概率密度),而不是直接给出每个可能取值的概率。期望是描述随机变量的平均值或预期值的概念。连续型随机变量可以取任意的实数值,因此其可能的取值范围是一个连续的区间。来描述,该函数给出了每个可能取值的概率。

2024-04-16 17:26:02 1890

原创 深入浅出统计学(四)— 概率计算

在统计学和概率论中,概率被定义为某个事件发生的可能性,它通常取值在0到1之间,其中0表示不可能发生,1表示一定发生。例如,考虑一个扑克牌的随机抽取实验,事件 A 表示抽到红桃,事件 B 表示抽到 A 或 K,则事件 A 和事件 B 就是相交事件。例如,掷一枚骰子,事件 A 表示出现奇数点数,事件 B 表示出现偶数点数,则事件 A 和事件 B 就是互斥事件。它基于概率的乘法规则,将条件概率表示为两个事件相互关联的概率的乘积。独立事件:如果事件 A 的发生与事件 B 的发生没有关联,那么这两个事件就是独立的。

2024-04-16 16:15:08 1480

原创 深入浅出统计学(三)— 分散性与变异性的量度

显示数据的全距、四分位距、中位数。如果 n 是偶数,那么上四分位数的位置为 3×1004=7543×100​=75 和 3×1004+1=7643×100​+1=76 的平均值,即第 75.5 个数据点。如果 n 是偶数,那么下四分位数的位置为 1004=254100​=25 和 1004+1=264100​+1=26 的平均值,即第 25.5 个数据点。如果 n 是奇数,那么上四分位数的位置为 3×(100+1)4=75.7543×(100+1)​=75.75 的位置,即第 75.75 个数据点。

2024-04-16 09:56:43 1694

原创 深入浅出统计学(二)— 集中趋势的量度

4. 异常值:与其他数据格格不入的极高或极低的数值5. 偏斜数据 :当异常值向左或者向右拉时就会出现 偏斜数据。

2024-04-16 08:51:40 154

原创 深入浅出统计学(一)— 信息图形化

若只有百分数没有频数,或者只有频数没有百分数,都要小心,这是藏匿基础数据真实情况的伎俩。用连续直方图表示落在区间的频数 (可以体现区间宽度,也可以提供频数)

2024-04-16 08:35:27 185

原创 利用Python进行数据分析(二)— pandas 2.2 基本功能

如果指定的新索引中存在原索引中没有的标签,在重建索引时会在新对象中创建缺失值,并用 NaN 表示。根据指定的新索引重新排列数据,使数据与新索引对应,创建符合新索引的新对象。指定新的行索引,可以是一个索引标签的列表、一个索引对象,或者其他能被转换成索引的对象。指定新的列索引,可以是一个列标签的列表、一个索引对象,或者其他能被转换成索引的对象。用于按标签索引,可以指定新的行索引和列索引,然后返回新的DataFrame。指定填充缺失值的值,当重建索引时出现缺失值时会用指定的值填充。写法1:reindex()

2024-04-15 17:03:43 936 1

原创 利用Python进行数据分析(二)— pandas 2.1数据结构

andas是含有使数据分析工作变得更快更简单的高级数据结构和操作工具。pandas是基于NumPy构建的,让以NumPy为中心的应用变得更加简单。导入pandasPandas主要有两种数据结构:Series和DataFrameSeries是一维标记数组,类似于Python中的列表或数组。它由一组数据和一组与之相关的索引(标签)组成。Series的字符串表现形式为:索引在左边,值在右边。由于没有为数据指定索引,于是会自动创建一个0到N-1(N为数据的长度)的整数型索引。输出将。

2024-04-15 09:07:37 1037 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除