JabinY-CSDN博客

原创数据分析基础_第三章_最优化

最优化将数据分为两类：无法控制因素：利润成本，生产效率等可以控制因素：生产数量等solve工具通过添加限制条件求最优值excel的扩展工具之一

2020-09-07 17:04:51 317

原创数据分析基础_第二章_理论检验

理论检验比较法比较法是统计分析最基本的原理观察分析法观察明显的数据变化趋势观察分析过程中会混入混杂因素，需要剔除后分析。拆分数据块，小数据块更具同质性AB测试以控制组为基准，将用户分为控制组和实验组控制组按正常运营，实验组调整运营方式分别分析数据变化趋势注意控制组和实验组之间差异性需要尽量低...

2020-09-07 15:08:55 369

分解数据数据分析流程确定问题 – 分解问题和数据 – 评估数据 – 做出决策确定问题了解分析目的目标市场目标结果竞品数据成本预算用户性格等建立心智模型以不同的眼光看待同一份数据，列举如果原假设为真能得出的结论和如果原假设为假得出的结论列举尚不明确的信息分解问题和数据将问题划分为可管理可解决的组块汇总数据进行比较分析备份原始数据分析与原假设不匹配的数据评估数据对数据进行比较提出假设做出决策撰写分析报告，确保意见传达到位分析背景：自己和客户/领导提出的假设数据解

2020-09-07 14:02:44 396

原创 Mysql学习_第十八章_使用视图

使用视图视图视图的作用重用sql简化sql操作使用表的一部分而不是整个表保护数据更改数据格式和表示规则和限制视图必须唯一命名视图创建没有数目限制视图可以嵌套视图不能索引创建视图视图用 CREATE VIEW 语句来创建。删除视图，可以使用 DROP 语句，其语法为 DROP VIEW viewname。覆盖（或更新）视图，必须先删除它，然后再重新创建。利用视图简化复杂的联结CREATE VIEW ProductCustomers ASSELECT cust_na

2020-09-04 15:40:21 188

原创 Mysql学习_第十七章_创建和操纵表

创建和操纵表创建表表创建基础利用 CREATE TABLE 创建表新表的名字，在create table 后给出表列的名字和定义，用逗号分隔CREATE TABLE Products(prod_id CHAR(10) NOT NULL,vend_id CHAR(10) NOT NULL,prod_name CHAR(254) NOT NULL,prod_price DECIMAL(8,2) NOT NULL,prod_desc VARCHAR(1000) NULL);使用

2020-09-04 15:24:50 129

原创 Mysql学习_第十六章_更新和删除数据

更新和删除数据更新数据使用 UPDATE 语句。更新表中特定行更新表中所有行三个组成部分要更新的表列名和他们的新值确定要更新哪些行的过滤条件UPDATE CustomersSET cust_email = 'kim@thetoystore.com'WHERE cust_id = '1000000005';删除数据使用 DELETE 语句从表中删除特定行从表中删除所有行注意：不要省略WHERE字句不然后果很严重DELETE FROM CustomersWHE

2020-09-04 11:20:24 172

原创 Mysql学习_第十五章_插入数据

插入数据数据插入插入完整行最常用的是insertINSERT INTO CustomersVALUES('1000000006','Toy Land','123 Any Street','New York','NY','11111','USA',NULL,NULL);更安全的写法INSERT INTO Customers(cust_id,cust_name,cust_address,cust_city,cust_state,cust_zip,cust_countr

2020-09-04 11:01:30 158

原创统计学基础_第十一章_总体和样本的估计

总体和样本的估计点估计量样本均值被称为总体均值的点估计量点估计量可以近似总体参数样本均值就是样本数据之和除以样本数据量样本方差的点估计值计算方法因为总体方差往往比样本方差大，所以需要n-1比例的抽样分布二项分布样本中，当n很大时，样本（>30）符合正态正态分布备注：因为每个样本都是离散的，需要做连续性修正。求样本均值与方差样本均值等于整体均值样本方差等于整体方差除n当n很大时，样本均值符合近似正态分布中心极限定理从一个非正态总体X中取出一个样本，当样本很大时，样本

2020-09-03 16:05:37 1323

原创统计学基础_第十章_样本抽取

样本抽取如何抽取样本确定目标整体尽可能准确地挑选研究整体定义样本空间样本可能有偏差样本发生偏差的情况样本空间中未包含所有对象抽样单位错误调查问卷设计不当缺乏随机性抽样方法简单随机抽样重复抽样：抽样后放回总体不重复抽样：抽样后不放回总体分层抽样将总体分成随机的组，对每个组进行随机抽样整群抽样将总体分群，对群进行随机抽样...

2020-09-03 11:24:57 729

原创统计学基础_第九章_正态分布的运用

正态分布的运用期望和方差的简捷算法同样适用于连续数据备注：使用前提是两个数据相互独立E(X+Y) = E(X)+E(Y)E(X-Y) = E(X) - E(Y)Var(X+Y)=Var(x)+Var(Y)Var(X-Y)=Var(x)+Var(Y)正态分布的线性变换独立观察结果的期望和方差...

2020-09-03 09:45:56 3456

原创统计学基础_第八章_正态分布

正态分布离散数据：由单个数值组成连续数据：包含一个数据范围连续改了分布可以用概率密度函数描述概率密度函数下方的总面积为1通过计算一个数值范围内的概率密度下的面积，可以得出该数值范围内的概率正态分布模型正态分布曲线符合均值为μ，标准差为σ的正态分布正态概率计算三步骤确定分布得到均值和方差标准化位N(0,1)标准化方法：将均值移动到Y轴将标准差收窄为标准分查找概率表先求出z，保留两位小数第一列位z值（保留一位小数四舍五入）第一行位第二位小数 ..

2020-08-31 17:53:21 1480

原创统计学基础_第七章_几何分布、二项分布、泊松分布

几何分布、二项分布、泊松分布几何分布概率的几何分布公式q=(1-p)r是为了取得首次成功所需进行的试验次数几何分布进行一系列相互独立的试验单次试验的成功概率相等且不等于1目的是求取得第一次成功需要进行多少次试验几何分布的情况下，第一次取得成功的概率最大期望计算公式方差计算公式二项分布二项分布公式进行一系列独立试验每次试验都有成功和失败的可能，且每次试验成功的可能相同试验次数有限写作当p接近0.5时图形对称，小于0.5向右偏，大于0.5向左偏。期望和方差

2020-08-31 15:56:37 774

原创统计学基础_第六章_排列组合

排列组合用于重复排列的公式排列与组合排列：一个群体中选取几个对像，考虑顺序的情况下求选取方式的数目组合：从一个群体中选取几个对象，不考虑顺序。

2020-08-31 14:08:49 676

原创统计学基础_第五章_离散概率分布

离散概率分布期望对每个数值乘以数值发生的概率求和期望的方差计算公式方差越大离散程度越高，方差越小平均值越接近期望观测值速算法期望：观测值数量乘期望方差：观测值数量乘方差对于独立随机变量因为变异性增大了，所以方差永远是相加。...

2020-08-31 12:28:01 893

原创统计学基础_第四章_概率计算

概率计算概率概率是度量某事发生的几率事件表示有概率发生的任何事情维恩图对立事件两事件相加的可能性为1，A事件发生则B事件必不发生,A事件不发生则B事件必发生互斥事件互斥事件不可能同时发生相交事件有可能同时发生条件概率一个事件的发生以另一个事件发生为条件以事件B为已知条件的事件A的概率可以简写为概率树全概率公式贝叶斯定理相关事件如果P(A|B)不等于P(A)则说明事件A与B是相关事件。独立事件如果事件之间互不影响，则为独立事件...

2020-08-31 11:46:24 383

原创统计学基础_第三章_分散性和变异性

分散性和变异性分散性全距全距（又称极差）：数据集中最大值减去最小值对异常值比较敏感四分位数将数据按升序排序，分为数据量相等的四格数据块，每块数据拥有四分之一原数据。每两块数据块当中的数据称为四分位数最小的四分位数据（Q1）称下四分位数最大的四分位数(Q3）称为上四分位数当中的四分位数（Q2）就是中位数四分位距 = 上四分位数 - 下四分位数箱型图变异性标准差是方差开根号使用标准分比较不同数据标准分用字母"z"表示...

2020-08-30 16:29:44 997

原创统计学基础_第二章_集中趋势

集中趋势平均数均值就是我们常见的平均值把数字相加然后除以数字的个数符号：μ中位数对数据按升序排序，如果数据数量为奇数，中位数就是中间的数据，如果数据数量为偶数，中位数是中间两个数相加除2众数一批数据中频数最大，即出现次数最多的一个数值，有时候一组数据会有多个众数众数因为不需要计算，所以可以用于类别数据，比如一群狗中最多狗的是金毛...

2020-08-30 15:13:43 986

原创统计学基础_第一章_信息图形化

数据图形化注意：图表不同的起始位置和单位会造成不同的视觉感受饼图注意：饼图在数据频数差距明显的情况下有用。条形图条形图相比饼图更加精准注意：类名字比较长的时候用水平条形图可读性会比较好标度需要同时考虑百分比和频数。数据对比堆积条形图对比频数的时候比较有用分段条形图定性数据与定量数据定性数据（类别数据）无法被理解为数字，不能进行加减数学运算的数据，比如动物的种类定量数据（数值型数据）具有数字意义的数据，比如某种动物的数量直方图直方图每个长方形的铭记和频数成比

2020-08-30 10:18:58 277

原创 Mysql学习_第十四章_组合查询

组合查询组合查询概述多数情况下，组合相同表的两个查询所完成的工作与具有多个 WHERE子句条件的一个查询所完成的工作相同。换句话说，任何具有多个WHERE 子句的 SELECT 语句都可以作为一个组合查询创建组合查询可用 UNION 操作符来组合数条 SQL 查询。利用 UNION ，可给出多条SELECT 语句，将它们的结果组合成一个结果集。使用 UNION使用 UNION 很简单，所要做的只是给出每条 SELECT 语句，在各条语句之间放上关键字 UNION 。SELECT cust_na

2020-08-28 17:31:50 325 1

原创 Mysql学习_第十三章_高级联结

高级联结使用表别名SQL 除了可以对列名和计算字段使用别名，还允许给表名起别名。缩短 SQL语句；允许在一条 SELECT 语句中多次使用相同的表。SELECT cust_name, cust_contactFROM Customers AS C, Orders AS O, OrderItems AS OIWHERE C.cust_id = O.cust_idAND OI.order_num = O.order_numAND prod_id = 'RGAN01';使用不同类型的联结

2020-08-28 15:14:57 104

原创 Mysql学习_第十二章_联结表

联结表联结SQL最强大的功能之一就是能在数据查询的执行中联结（join）表。联结是利用 SQL的 SELECT 能执行的最重要的操作。关系表关系表的设计就是要把信息分解成多个表，一类数据一个表。各表通过某些共同的值互相关联（所以才叫关系数据库）。为什么使用联结可以联结多个表返回一组输出，联结在运行时关联表中正确的行。创建联结创建联结非常简单，指定要联结的所有表以及关联它们的方式即可。SELECT vend_name, prod_name, prod_priceFROM Vendors,

2020-08-27 17:07:17 140

原创 Mysql学习_第十一章_子查询

子查询子查询子查询（subquery），即嵌套在其他查询中的查询。利用子查询进行过滤假如需要列出订购物品 RGAN01 的所有顾客的查询步骤检索包含物品 RGAN01 的所有订单的编号。检索具有前一步骤列出的订单编号的所有顾客的 ID。检索前一步骤返回的所有顾客 ID的顾客信息。使用select步骤SELECT order_numFROM OrderItemsWHERE prod_id = 'RGAN01';#检索物品'RGAN01'的订单编号SELECT cust_idF

2020-08-27 16:30:46 282

原创 Mysql学习_第十章_分组数据

分组数据数据分组使用分组可以将数据分为多个逻辑组，对每个组进行聚集计算。创建分组分组是使用 SELECT 语句的 GROUP BY 子句建立的。SELECT vend_id, COUNT(*) AS num_prodsFROM ProductsGROUP BY vend_id;上面的 SELECT 语句指定了两个列： vend_id 包含产品供应商的 ID，num_prods 为计算字段（用 COUNT(*) 函数建立）。 GROUP BY 子句指示DBMS按 vend_id 排序并分组数

2020-08-27 16:08:16 187

原创 Mysql学习_第九章_汇总数据

汇总数据聚集函数AVG() 函数AVG() 通过对表中行数计数并计算其列值之和，求得该列的平均值。 AVG()可用来返回所有列的平均值，也可以用来返回特定列或行的平均值。SELECT AVG(prod_price) AS avg_priceFROM Products;#返回prod_price字段的平均值SELECT AVG(prod_price) AS avg_priceFROM ProductsWHERE vend_id = 'DLL01';#返回vend_id位DLL01的pr

2020-08-27 15:56:33 197

原创 Mysql学习_第八章_函数

函数函数概述举例提取字符串的组成部分： SUBSTRING()数据类型转换： CONVERT()取当前日期： CURDATE()函数文本处理函数UPPER() # 将文本设置为大写SELECT vend_name, UPPER(vend_name) AS vend_name_upcaseFROM VendorsORDER BY vend_name;soundex 返回的是用字母数字模式的发音下面给出一个使用 SOUNDEX() 函数的例子。 Customers 表

2020-08-27 14:52:52 134

原创 Mysql学习_第七章_创建计算字段

创建计算字段计算字段计算字段并不实际存在于数据库表中。计算字段是运行时在 SELECT 语句内创建的。拼接字段SELECT Concat(vend_name, ' (', vend_country, ')')FROM VendorsORDER BY vend_name;SQL的 TRIM() 函数清除数据左右的空格SELECT trim(Concat(vend_name, ' (', vend_country, ')'))FROM VendorsORDER BY vend_name;

2020-08-27 13:50:33 132

原创 Mysql学习_第六章_通配符

通配符LIKE 操作符百分号（%）通配符% 表示任何字符出现任意次数SELECT prod_id, prod_nameFROM ProductsWHERE prod_name LIKE 'Fish%';#在执行这条子句时，将检索任意以Fish 起头的词。 % 告诉 DBMS 接受 Fish 之后的任意字符，不管它有多少字符。备注：通配符%不能匹配NULL下划线（_）通配符只匹配单个字符，而不是多个字符。SELECT prod_id, prod_nameFROM ProductsW

2020-08-27 11:56:07 151

原创 Mysql学习_第五章_高级数据过滤

高级数据过滤组合 WHERE 子句

2020-08-27 10:51:23 106

原创 Mysql学习_第四章_过滤数据

过滤数据使用 WHERE 子句数据根据 WHERE 子句中指定的搜索条件进行过滤。WHERE 子句在表名（ FROM 子句）之后给出SELECT prod_name, prod_priceFROM ProductsWHERE prod_price = 3.49;备注：在同时使用 ORDER BY 和 WHERE 子句时，应该让 ORDER BY 位于WHERE 之后，否则将会产生错误。WHERE 子句操作符检查单个值列出所有价格小于 10美元的产品SELECT prod_name,

2020-08-26 16:59:27 113

原创 Mysql_第三章_排序

排序排序数据ORDER BY 子句取一个或多个列的名字，据此对输出进行排序。SELECT prod_nameFROM ProductsORDER BY prod_name;按多个列排序要按多个列排序，简单指定列名，列名之间用逗号分开即可SELECT prod_id, prod_price, prod_nameFROM ProductsORDER BY prod_price, prod_name;备注：可以按照不在检索字段的列进行排序按列位置排序ORDER BY 还支持按相对列位

2020-08-26 16:51:35 135

原创 mysql学习_第二章_检索

检索select语句SELECT prod_nameFROM Products;上述语句利用 SELECT 语句从 Products 表中检索一个名为 prod_name的列。所需的列名写在 SELECT 关键字之后， FROM 关键字指出从哪个表中检索数据。备注：多条 SQL语句必须以分号（；）分隔。SQL语句不区分大小写，因此 SELECT 与 select 是相同的。在处理 SQL语句时，其中所有空格都被忽略。SQL语句可以写成长长的一行，也可以分写在多行。检索多个列要想

2020-08-26 16:35:52 169

原创 Mysql学习_第一章_概述

概述基础数据库数据库是一个以某种有组织的方式存储的数据集合。表表是一种结构化的文件，可用来存储某种特定类型的数据。表可以保存顾客清单、产品目录，或者其他信息清单。数据库中的每个表都有一个名字来标识自己。这个名字是唯一的，即数据库中没有其他表具有相同的名字。列和数据类型表中的一个字段。所有表都是由一个或多个列组成的。每个表列都有相应的数据类型，它限制（或允许）该列中存储的数据。行表中的数据是按行存储的，所保存的每个记录存储在自己的行内。如果将表想象为网格，网格中垂直的列为

2020-08-26 15:54:20 187

原创 sklearn学习_第三章_数据预处理和特征工程

数据预处理和特征工程概述数据预处理与特征工程数据挖掘的五大流程：获取数据数据预处理数据预处理是从数据中检测，纠正或删除损坏，不准确或不适用于模型的记录的过程可能面对的问题有：数据类型不同，比如有的是文字，有的是数字，有的含时间序列，有的连续，有的间断。也可能，数据的质量不行，有噪声，有异常，有缺失，数据出错，量纲不一，有重复，数据是偏态，数据量太大或太小数据预处理的目的：让数据适应模型，匹配模型的需求特征工程：特征工程是将原始数据转换为更能代表预测模型的潜在问题的特征的过程，可以通过挑选

2020-08-26 14:08:16 588

原创 sklearn学习_第二章_随机森林

随机森林概述集成算法概述集成学习（ensemble learning）是时下非常流行的机器学习算法，它本身不是一个单独的机器学习算法，而是通过在数据上构建多个模型，集成所有模型的建模结果。集成算法会考虑多个评估器的建模结果，汇总之后得到一个综合的结果，以此来获取比单个模型更好的回归或分类表现。sklearn中的集成算法sklearn中的集成算法模块ensemble类类的功能ensemble.AdaBoostClassifier AdaBoost分类ensemble.AdaB

2020-08-25 10:51:57 597

原创 sklearn学习_第一章_决策树

决策树1 工作原理决策树（Decision Tree）是一种非参数的有监督学习方法，它能够从一系列有特征和标签的数据中总结出决策规则，并用树状图的结构来呈现这些规则，以解决分类和回归问题。最初的问题所在的地方叫做根节点，在得到结论前的每一个问题都是中间节点，而得到的每一个结论（动物的类别）都叫做叶子节点。备注：树干就是根节点只能向外延展，树枝是中间节点，树枝上还能长树枝所以既能从根节点接收数据也能向他延展出去的树枝输出数据。叶子是叶子节点，叶子上不能长叶子了，所以只有进没有出。决策树算法的核心是要

2020-08-24 15:28:55 531

空空如也

空空如也