自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 Python数据分析实战基础--pandas

文章目录Python数据分析实战基础01 创建 读取 储存创建 字典+列表读取 pd.read_csv()存储 df.to_csv()02 快速认识数据03 列的基本处理方式增加列 df["新列名:]删除列 df.drop("新增的列")选择某一列 或 几列 df[['第一列','第二列','第三列'..]]修改列04 常用数据类型及操作字符串数值型时间类型 很重要 pd.to_dateti...

2019-08-22 15:49:30 655

原创 数据挖掘--统计学模块 05 抽样分布

文章目录抽样分布楔子大数法则中心极限定理自助法抽样分布统计量:样本均值、样本方差、样本变异系数、样本K阶矩、样本K阶中心矩、样本偏度、样本峰度、次序统计量、充分统计量抽样分布:卡方分布、T分布、F分布、样本方差的分布、样本比例的抽样分布、中心极限定理、两个样本平均值之差的分布、两样本方差之比的分布、其他重要抽样分布楔子在理解抽样分布之前, 首先需要明确区分 描述统计 与 推论统计描...

2019-08-18 23:12:39 2077

原创 数据挖掘--统计学模块 04 数据分布-Python

文章目录1. 使用 Python 验证数据集中的体温是否符合正态分布。开始作图检验是否是正态分布2.使用 Python 绘制第三周中常见的数据分布的可视化图1. 使用 Python 验证数据集中的体温是否符合正态分布。数据集地址:http://jse.amstat.org/datasets/normtemp.dat.txt数据集描述:总共只有三列:体温、性别、心率数据集详细描述:Jour...

2019-08-11 15:48:13 1522

原创 python基础知识--函数&脚本编写

文章目录egg_count = 0def buy_eggs(): print(egg_count) print(egg_count+1) egg_count += 12 # purchase a dozen eggsbuy_eggs()上述代码中 print() 不会报错,没有问题但是egg_count += 12 赋值操作会报错!!!发现在函数内,我们可以成功地输出外...

2019-08-09 19:36:33 731

原创 python 基础知识-- 数据类型与运算符&控制流

文章目录数据类型与运算符控制流数据类型与运算符数据类型:整型、浮点型、布尔型、字符串、列表、元组、集合、字典运算符:算术、赋值、比较、逻辑、成员、恒等运算符内置函数、复合数据结构、类型转换空格和样式指南我们需要注意两种类型的错误异常语法错误异常是代码运行时发生的问题,而语法错误是 Python 在运行代码之前检查代码时发现的问题。整型:浮点型:布尔型:字符...

2019-08-08 18:19:48 367

原创 git 基础使用

文章目录自我们上次再次查看概念图以来,我们引入了一些新概念。git init (git 初始化)git add (git 添加)git status (git 状态)staging area (暂存区)working directory (工作目录)...

2019-08-07 23:25:25 115

原创 SQL 聚合 & 分组查询

文章目录SQL 聚合01 unll 值得存在02 count 计数03 sum04 min max | avg 平均值05 group by 分组SQL 聚合01 unll 值得存在是一种数据类型, 表示sql中没有数据. 学习使用 COUNT 时你将首次接触到这一现象。需要知道空值是什么意思, 需要如何操作空值.where id is null; 不可以使用 where id...

2019-08-06 23:16:16 654

转载 特征工程系列:数据清洗

这是我的第一篇转载文, 内容质量高, 建议多看多理解. 本文引用自 https://mp.weixin.qq.com/s/b2EaZmGT61Gg40qCCxvi1w文章目录特征工程系列:数据清洗数据清洗介绍01 格式内容清洗02 逻辑错误清洗03 异常值清洗1.异常值检查方法2.数据光滑处理3.异常值处理方法04 缺失值清洗1.造成缺失值的原因2.缺失数据处理方法3.数据填充的方法4.缺失...

2019-07-31 17:37:27 550

原创 SQL 查询操作符 连接查询 子查询

文章目录SQL增删改查--查询操作符和子查询and; orin; not inbetween...and...like "字符串"is [not] nulldistinctas 重命名limit 3SQL增删改查–查询操作符和子查询查询操作符and; or“和” “或” 联合多个条件进行查询select * from fruitswhere s_id=101 and f_id="...

2019-07-29 19:06:48 519

原创 SQL 增删改查

文章目录SQL 增删改查创建数据库"增" 导入数据"删""改""查"SQL 增删改查特别是条件查询(where, group by, order by等)创建数据库use test;create table Monthly_Indicator( city_name varchar(20) not null, # varchar 可变长度字符串; not null 非空 mon...

2019-07-26 18:32:42 239

原创 python晋级

python晋级:在python 中, 晋级的知识点有很多, 但面试或是实际操作中常用的可以总结归纳出一部分. 立一个flag, 每周总结1-2个知识点, 不仅是总结, 需要自己可以熟悉使用.lambda,迭代器,生成器,装饰器,全局锁,多线程进程,并行运算,OOP,各种语法糖方式: 理论+代码+实际操作...

2019-07-26 17:40:33 251

原创 数据挖掘--统计学模块 02 数据的描述性统计 python代码合集

文章目录数据挖掘--统计学模块 02 数据的描述性统计 python代码合集数据挖掘–统计学模块 02 数据的描述性统计 python代码合集import pandas as pdimport numpy as npimport scipy.statsdf = pd.DataFrame(np.random.randint(0,40,40).reshape(20,2),columns=li...

2019-07-26 12:06:43 491

原创 数据挖掘--统计学模块 03 概率分布

文章目录数据挖掘--统计学模块 03 概率分布01 基本概念02 离散变量概率分布03 连续变量概率分布数据挖掘–统计学模块 03 概率分布01 基本概念随机变量古典概率条件概率离散变量连续变量期望值02 离散变量概率分布二项分布伯努利分布泊松分布03 连续变量概率分布均匀分布正态分布指数分布伽玛分布偏态分布贝塔分布威布尔分布卡方分布F分布...

2019-07-24 19:20:36 570

原创 数据分析案例--01 城市餐饮店铺选址分析

文章目录城市餐饮店铺选址分析要求:城市餐饮店铺选址分析要求:1、从三个维度“口味”、“人均消费”、“性价比”对不同菜系进行比较,并筛选出可开店铺的餐饮类型要求:① 计算出三个维度的指标得分② 评价方法:口味 → 得分越高越好性价比 → 得分越高越好人均消费 → 价格适中即可③ 制作散点图,x轴为“人均消费”,y轴为“性价比得分”,点的大小为“口味得分” (暂时未涉及)绘制柱状...

2019-07-22 14:41:21 2640 3

原创 数据分析中matplotlib的日常使用

文章目录绘制子图(01 02 经常使用)==01 创建画布 matplotlib.pyplot.figure()====02 创建一个画布和一组子图matplotlib.pyplot.subplots(nrows=1, ncols=1)==03 当前图中加子图matplotlib.pyplot.subplot(*args, **kwargs)04 向图中加入子图的轴 ==fig==.add_su...

2019-07-21 23:15:21 333

原创 数据分析中pandas的日常使用

文章目录导入文件01 导入excel文件02 导入CSV文件03 导入MySQL数据导入文件01 导入excel文件os.chdir(r"C:\Users\Administrator\Desktop")df1 = pd.read_excel("附件1:协议酒店名单发布版.xlsx", encoding="utf-8",sheetname=0)# 现在的版本encoding="utf-8"...

2019-07-21 22:01:03 522

原创 数据挖掘算法概要

Logistic Regression LR 逻辑回归Naive Bayes 朴素贝叶斯Decision Tree 决策树Support Vector Machine SVM 支持向量机K-means聚类算法GBDT 梯度下降树XGBoost

2019-07-20 22:39:57 159

原创 数据预处理--02 数据归一化/标准化 | 数据连续属性离散化

文章目录数据归一化\标准化0-1标准化Z-score标准化数据归一化\标准化数据标准化(normalization)是将数据按比例缩放, 使之落入一个小的特定区间. 在某些比较和评价的指标处理中经常会用到, 去除数据的单位限制, 将其转化为无量纲的纯数据, 便于在不同单位或量级的指标能够进行比较和加权.最典型的就是归一化处理, 即将数据统一映射到[0,1]区间0-1标准化\Z-score标...

2019-07-18 22:57:58 1233

原创 python基础知识测试题--01 字符串

python基础知识测试在使用python过程中, 很多基础知识不用回逐渐陌生, 为了增强熟悉程度, 针对python的各个基础知识点做相应的测试, 不断总结回顾.知识点:字符串列表字典文件读写循环遍历类...

2019-07-18 12:37:15 241

原创 数据预处理--01 缺失值处理\异常值处理

数据预处理数据常见的预处理方法 (异常值剔除,空值填充,归一化,离散化 等)异常值(空值)处理异常值主要分为NULL值\重复值\明显不在数据范围内等等异常值处理方法:删除记录\数据填充\不处理...

2019-07-16 18:07:18 4691

原创 数据挖掘--统计学模块 01 数据的描述性统计

01 数据的描述性统计欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用M...

2019-07-15 18:35:37 1021

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除