- 博客(25)
- 资源 (1)
- 收藏
- 关注
原创 银行贷款预测分析(Loan Prediction)
贷款数据的预测分析,通过使用python来分析申请人哪些条件对贷款有影响,并预测哪些客户更容易获得银行贷款。数据来源 Loan Prediction:https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/提出问题:哪些客户更容易获得银行贷款?导入数据import numpy as ...
2018-10-27 22:10:51 11752 12
原创 检验假设:特鲁普效应是否存在?
特鲁普效应测试特鲁普效应是著名的心理学现象,展示了人们对事物的认知过程已是一个自动化的历程。当有一个新的刺激出现时,如果它的特征和原先的刺激相似或符合一致,便会加速人们的认知;反之,若新的刺激特征与原先的刺激不相同,则会干扰人们的认知,使人们的所需的反映数据变长。简单来说,斯特鲁普效应是当有与原有认知不同的情况出现时,人们的反应时间会较长。接下来验证特鲁普效应通过网上的stro...
2018-07-26 12:20:13 668
原创 单样本检验:引擎排放标准是否达标?
单样本检验 案例练习 根据政府要求新排放标准:引擎排放平均值<20ppm,才到达环保的要求。有某家生产汽车引擎的公司,需要测试该公司的引擎排放是否达到标准。现在有10台引擎供测试使用,每一台的引擎排放水平的数据分别为:15,6,16.2,22.5,20.5,16.4,19.4,16.6,17.9,12.7,13.9如果知道该公司的引擎是否达到政府要求的排放标准呢?一、求样本...
2018-07-25 12:25:45 491
原创 统计学的假设检验
1.什么是假设检验?假设检验是一种规则,它根据数据样本所提供的证据,指定是肯定还是否定有关总体的声明。基本原理是先对总体的特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受作出推断。2.假设检验的基本思想假设检验的基本思想是小概率反证法思想。小概率思想是指小概率事件(P<0.01或P<0.05)在一次试验中基本上不会发生。反证法思想是先提出假设(检...
2018-07-25 12:08:49 2507
原创 统计学的置信区间
有时候无法给出足够正确的结果。我们使用的是样本,没有使用整个总体,只是得到最佳的点估计量,存在着小心的误差。不使用精确值作为总体均值的估计值,但是我们可以指出某个区间来估计。一、置信区间简介 置信区间展现的是,这个总体参数的真实值有一定概率落在与该测量结果有关的某对应区间。置信区间给出的是,声称总体参数的真实值在测量值的区间所具有的可信程度,这个概率被称为置信水平。置信水平...
2018-07-20 23:55:41 10852
原创 朝阳医院数据处理分析实例
数据分析的步骤:提出问题→理解数据→数据清洗→构建模型→数据可视化目标数据:2018年朝阳医院销售数据.xlsx 业务部门下发了一项业务分析目标,把数据发给我的时候就在思考该怎么分析,接下来一起探讨怎么进行简单的数据分析一、提出业务指标问题从销售数据中分析下面的业务指标问题:(1)月均消费次数(2)月均消费金额(3)客单价(4)消费趋势导入所需要的包impo...
2018-05-11 13:14:47 5364 3
原创 玩转可视化绘图 matplotlib简单绘图
matolotlib 基本图形绘制from pandas import Series,DataFrameimport matplotlib.pyplot as pltimport numpy as npimport pandas as pd下面先做两个例子绘折线图Series生成图表ts=Series(np.random.randn(120),index=pd....
2018-05-07 10:34:45 485
原创 《利用Python进行数据分析》第10章 时区处理笔记
时区处理在Python中,时区信息来自第三方库pytz,它使Python可以使用Olson数据库(汇编了世界时区信息)。有关pytz库的更多信息,请查阅其文档,时区名可以在文档中找到,也可以通过交互的方式查看from pandas import Series,DataFrameimport pandas as pdimport numpy as npimport pytz
2017-12-30 15:39:22 973
原创 《利用Python进行数据分析》第10章 时间序列、日期和时间数据类型笔记
时间序列日期和时间数据类型及工具Python标准库包含用于日期(date)和时间(time)数据的数据类型,还有日历方面的功能。主要会用到datetime、time以及calendar模块。datetime.datetime(也可以简写为datetime)是用得最多的数据类型from pandas import Series,DataFrameimport pandas a
2017-12-29 13:40:03 1234
原创 《利用Python进行数据分析》第9章 分组级运算和转换笔记
分组级运算和转换聚合是分组运算的其中一种。它是数据转换的一个特例,它接受能够将一维数组简化为标量值的函数。接下来将介绍transform和apply方法,它们能够执行更多其他的分组运算。如果要为一个DataFrame添加一个用于存放各索引分组平均值的列。一个办法是先聚合再合并df=DataFrame({'key1':['a','a','b','b','a'],'key2':['
2017-12-27 22:01:30 1445
原创 《利用Python进行数据分析》第9章 groupby技术和数据聚合笔记
数据聚合与分组运算对数据集进行分组并对各组应用一个函数(无论是聚合还是转换),这是数据分析工作中的重要环节。在将数据集准备好之后,通常的任务就是计算分组统计或生成透视表在本章中,你将会学到: - 根据一个或多个键(可以是函数、数组或DataFrame列名)拆分pandas对象。 - 计算分组摘要统计,如计数、平均值、标准差,或用户自定义函数。 - 对DataFrame的列应用各种各
2017-12-26 18:38:36 1930
原创 《利用Python进行数据分析》第8章 绘图和可视化笔记
matplotlib是一个用于创建出版质量图表的桌面绘图包(主要是2D方面)。绘图是数据分析工作中最重要的任务之一,是探索过程的一部分。import matplotlib.pyplot as pltfrom pandas import Series,DataFrameimport pandas as pdimport numpy as npfrom numpy.random import r
2017-12-23 13:08:17 2082
原创 《利用Python进行数据分析》第7章 字符串操作与正则表达式
字符串操作Python有简单易用的字符串和文本处理功能,大部分文本运算都直接做成了字符串对象的内置方法。对于更为复杂的模式匹配和文本操作,则可能需要用到正则表达式。字符串对象方法以逗号分隔的字符串可以用split拆分成数段In [4]: val='a,bc,c, gudio'In [5]: val.split(',')Out[5]: ['a', 'bc', 'c', ' gudio']In [6]
2017-12-21 23:20:39 1217
原创 《利用Python进行数据分析》第7章 轴连接与数据转换
轴连接另一种数据合并运算也被称作连接(concatenation)、绑定(binding)或堆叠(stacking)。NumPy有一个用于合并原始NumPy数组的concatenation函数。In [2]: import pandas as pdIn [3]: import numpy as npIn [4]: arr=np.arange(12).reshape((3,4))In [5]: arr
2017-12-21 00:05:09 494
原创 《利用Python进行数据分析》第7章 合并数据集
合并数据集数据分析和建模方面的大量编程工作都是用在数据准备上的:加载、清理、转换以及重塑。有时候,存放在文件或数据库中的数据并不能满足你的数据处理应用的要求。pandas对象中的数据可以通过一些内置的方式进行合并: pandas.merge可根据一个或多个键将不同DataFrame中的行连接起来。数据库风格的DataFrame合并数据集的合并(merge)或连接(join)运算是
2017-12-19 23:08:28 501
原创 《利用Python进行数据分析》第6章 数据加载、存储与文件格式
接下来要着重介绍pandas的输入输出对象,输入输出通常可以划分为几个大类:读取文本文件和其他更高效的磁盘存储格式,加载数据库中的数据,利用Web API操作网络资源。读写文本格式的数据read_csv和read_table可能会用到的多: 我将大致介绍一下这些函数在将文本数据转换为DataFrame时所用到的一些技术。这些函数的选项可以划分为以下几个大类: * 索引:将一个或多个列当做返
2017-12-19 00:16:58 552 1
原创 《利用Python进行数据分析》第5章 pandas的数据汇总与处理缺失数据
汇总和计算描述统计pandas对象拥有一组常用的数学和统计方法。它们大部分都属于约简和汇总统计,用于从Series中提取单个值(如sum或mean)或从DataFrame的行或列中提取一个Series。In [1]: from pandas import Series,DataFrameIn [2]: import pandas as pdIn [3]: import numpy as np用D
2017-12-13 23:56:06 778
原创 《利用Python进行数据分析》第五章 pandas的基本功能
介绍操作Series和DataFrame中的数据的基本功能重新索引 pandas对象的一个重要方法是reindex,其作用是创建一个适应新索引的新对象。以之前的一个简单示例来说In [1]: from pandas import Series,DataFrameIn [2]: import pandas as pdIn [3]: import numpy as npIn [4]: obj=Seri
2017-12-12 23:28:09 1163
原创 《利用Python进行数据分析》第五章-pandas的数据结构介绍
pandas的数据结构介绍要使用pandas,你首先就得熟悉它的两个主要数据结构:Series和DataFrame。虽然它们并不能解决所有问题,但它们为大多数应用提供了一种可靠的、易于使用的基础。In [1]: from pandas import Series,DataFrameIn [2]: import pandas as pdIn [3]: import numpy as npSeriesS
2017-12-11 20:27:55 691
原创 《利用Python进行数据分析》第四章-numpy基础
Numpy数组函数和数组数据处理1.通用函数:快速的元素级数组函数通用函数(即ufunc)是一种对ndarray中的数据执行元素级运算的函数。你可以将其看做简单函数(接受一个或多个标量值,并产生一个或多个标量值)的矢量化包装器。许多ufunc都是简单的元素级变体,如sqrt和exp:In [1]: import numpy as npIn [2]: arr = np.arange(10)In [3]
2017-12-10 21:59:42 1242
原创 numpy基础入门-多维数组对象
Numpy,即Numeric Python是高性能科学计算和数据分析的基础包。NumPy为我们提供了丰富的数学函数、强大的多维数组对象以及优异的运算性能。NumPy与SciPy、Matplotlib、SciKits等其他众多Python科学计算库很好地结合在一起,共同构建了一个完整的科学计算生态系统。功能主要包括:1、一个强大的N维数组对象Array; 2、比较成熟的(广播)函数库; 3、用于整
2017-12-09 20:15:50 471
原创 pandas入门练习-数据结构
pandas 是python的一个数据分析包,是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。提供了高效地操作大型数据集所需的工具,使得数据分析工作变着简单高效。pandas数据结构介绍Series是一种类似于一维数组的对象,它由一维组数(各种Numpy数据类型)以及一组与之相关的数据标签(即索引)组成。仅由一组数据即可产生最简单的Seriesfrom pandas import
2017-12-04 14:32:15 551
原创 Matplotlib绘制折线图
matplotlib包是目前绘制2D图像最常用的python包,是一个数学绘图库,我们将使用它来制作简单的图表,如折线图和散点图等。数据可视化指的是通过可视化表示来探索数据。开始测试简单的绘图工具。使用matplotlib绘制一个简单的折线图,再对其进行定制,以实现信息更丰富的数据可视化。import matplotlib.pyplot as pltsquares=[1,4,9,16
2017-11-26 20:08:44 1192
原创 python安装 numpy、matplotlib 和scipy
先安装好成功python方可安装其他第三方库1.安装numpy 下载地址:[https://pypi.python.org/pypi/numpy] 选择python安装的版本,例如window上安装的是python3.6版本的,选择的是下面这个版本。一定要选择相应的版本。 把下载的文件放到安装好的python文件夹的Script里面。例如安装在E:\python\Scripts 通过命令
2017-11-20 12:30:27 469
原创 学习python,你要做的事情
做正确的事情,积累自己这个社会变化太快了,每天都在变,唯有不断的学习才不会落后,让我有危机感。开始学习,做正确的事情吧!现在开始学习python语言,通过每次学习来记录自己所学的内容,作为自己的学习笔记。离开学校工作之后不久,让我知道拥有自己的核心能力的重要性,有自己的一种强项技术或者其他的能力才更好的立足社会生活。离开了学校并不是结束了学习,而是新学习的开始,学习对自己有用的知识,才能更好的在工作
2017-11-20 11:10:42 296
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人