- 博客(12)
- 收藏
- 关注
原创 (七)模型调优
Odds Ratio(优势比):一个事件在一个组发生的可能性相对于在另一个组的大小Odds(优势):事件发生的概率与不发生概率之比,值域[0,∞)1 一元连续变量逻辑回归X连续变量 Y二分类变量Logit是Odds的自然对数logit代表隐变量Y’,X用于预测Y’模型评估模型预测的三种结果:一致对(√)、不一致对、相等对(50%√)一致对表statmodels不提供,可用ROC曲线下面积(AUC)代表,AUC就是C统计量ROC曲线y轴为灵敏度,x轴为1-特异度,曲线越趋向左上方越好
2021-10-25 13:12:30 1035
原创 (六)线性回归、逻辑回归
线性回归线性回归模型简单线性回归多元线性回归线性回归模型相关:检验X、Y是否独立回归:构建Y与X的关系(线性关系、抛物线关系、对数关系) y=f(x)简单线性回归方法:最小似然估计import pandas as pdimport numpy as npimport osimport matplotlib.pyplot as plt #可视化import statsmodels.api as sm from statsmodels.formula.api
2021-10-08 20:42:22 1380
原创 (五)统计分析基本算法
统计分析1 参数估计2 假设检验与单样本T检验3 两样本T检验3 方差分析4 相关分析1 参数估计给定一个变量X改变,另一个变量Y均值改变说明两个变量有关,则这两个变量不独立。X可预测Y,y=f(x)。分析过程:建立两个变量的描述性统计,观察一个变量改变另一个变量均值是否改变(是否独立)。若不独立,则说名一个变量对另一个变量有预测作用。检验两变量是否有关的四个检验:统计学中检验两个变量是否有关,都是通过检验同组两个变量均值的差值是否等于0.如果与0无差异,说明两个变量无关,如果与0有差异,说
2021-10-05 19:49:22 3501
原创 (四)数据整合清洗
数据整合与清洗1 数据整合2 数据清洗2.1 错误值处理2.2 缺失值处理2.3 噪声值处理1 数据整合SQL语句介绍选择表中指定列select <目标> from < >import pandas as pdimport os导入数据os.chdir(r'D:\python商业实践\《Python数据科学技术详解与商业实践》PDF+源代码+八大案例\《Python数据科学技术详解与商业实践》PDF+源代码+八大案例\源代码\Python_book\5Preproc
2021-09-24 20:52:57 951
原创 (三)描述性统计分析与绘图
描述性统计分析与绘图1 描述性统计分析1.1 概念1.2 描述统计/案例1.2.1 单因子频数1.2.2 表分析1.2.3 单连续变量描述1.2.4 分类汇总1.2.5 汇总表1.2.5 时间序列——双轴图2 绘图原理1 描述性统计分析1.1 概念数据变量度量类型名义: 字符(原义)、数值(编码)等级 :字符、数值 有排序 ‘小中大’ 差值无意义连续 :数值 ‘age’#连续变量分组,当成等级变量使用,可使数据更稳健#名义变量和等级变量统称为分类变量。统计量:频次、百分比描述名
2021-09-18 19:18:52 3696
原创 (二)Python基础
Python基础1 常用数据分析包2 Python基本数据类型2.1 字符串2.2 数值类型:整数、浮点数2.3 布尔值2.4 日期时间3 Python数据基本结构4 控制流4.1 顺承4.2 分支4.3 循环4 Python函数5 Pandas读写结构化数据python特性简单、直观、强大开源,以便任何人做出贡献代码容易理解适用于短期开发的日常任务可扩展性、丰富的库、面向对象、高级语言、可移植性等特点缺点强制缩进构架选择太多性能低(低于C)Anacoda python 是python
2021-09-03 22:51:00 294 1
原创 (一)数据科学
数据科学技术1 数据科学概念2 数理统计技术2.1 描述性统计分析2.2 统计推断与统计建模1 数据科学概念数据科学是一个发现、解释数据中的模式并用于解决问题的过程。数据科学可以从数据中获取知识,为行动提出建议的方法、技术和流程,以完成商业或工业上的目标。下图所示流程为数据科学的工作范式。反过来即为建模步骤。数据学是数据科学的基础。数据学研究数据本身,研究数据的各种类型、状态、属性及变化规律;数据科学是为科学研究的数据方法。2 数理统计技术2.1 描述性统计分析2.2 统计推断与统计建模
2021-08-27 22:26:42 462
原创 Pandas
1 Series结构: 索引 + 一维数组数值1.1 创建Series通过三种方式创建:pd.Series ( list /array / dict)列表list数组array字典dict(键——索引,值——值)1.2 指定Series索引pd.Series (list , index=[ ])#Series默认索引为0 1 2 3…#指定index ,索引长度要与值长度一致1.3 获取Series数据获取索引 .index获取值 .values1
2021-08-22 23:52:17 836
原创 python数据分析1
1 简介三大工具包#首先要导入工具包:‘import pandas as pd import numpy as np ’1. Numpy基于numpy扩展的结构化数据处理工具2.Pandas,表格容器,内置了多种高效的操作大型数据集所需的方法Series / Dataframe3. Matplotlib 将数据可视化展示 (seaborn)Api绘制图表保存图片数组可表示一维、二维...
2021-08-09 23:30:23 83
原创 0716 数组
数组的声明与赋值int[] arr = new int[2];a[0] = 10;a[1] = 20;另一种方式也可以直接明确数组的长度,以及数组中元素的内容:int[] arr = new int[]{20,30,40};int[] arr = {20,30,40};如果数组初始化中不使用运算符new。需要注意:下列写法是错误的:int[] arr; arr = {20,30,40};数组内存分析 栈内存:栈内存存储的都是局部变量,变量一旦出了自己的作用域,那么就
2021-07-17 01:06:48 96
原创 0715 Java语言基础
1 基本数据类型与变量1.1 基本数据类型Java基本数据类型包括8种:整型byte、short、int、long1.2 变量
2021-07-16 00:24:12 79
原创 0713 JAVA简介与环境配置
1.java简介java面向对象,包括一个类的扩展集合,分别组成各种程序包。*抽象窗口工具集 awt (abstract windowing toolkit):处理 输入输出的类(java.io包)和支持网络功能的类(java.net**包)*类(class):是数据和操作数据的方法的方法。Java程序是用类组织的2.环境安装(windows64操作系统)第一步:下载JDK网址:https://www.oracle.com/java/technologies/javase-downl
2021-07-13 23:36:39 102
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人