![](https://img-blog.csdnimg.cn/20191204012743417.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
Python数据分析
General_单刀
加油吧~~~
展开
-
Python数据分析——pandas数据探索常用方法实战
目录Pandas的主要方法排序索引和获取数据应用函数到单元格、列、行分组(Groupby)汇总表增减DataFrame的行列预测离网率本篇通过分析电信运营商的客户离网率来熟悉Pandas数据探索的常用方法,并构建一个预测客户离网率的简单模型Pandas的主要方法导入相关库import numpy as npimport pandas as pd...原创 2019-11-25 14:17:26 · 1947 阅读 · 2 评论 -
Python数据分析——numpy模块
目录概述Numpy 数组类型Numpy初探Numpy数组生成列表或元组转换arange方法创建linspace方法创建ones方法创建zeros方法创建eye方法创建从已知数据创建ndarray数组属性概述Numpy是支持python语言的数值计算扩充库,其拥有强大的多维数组处理能力与矩阵运算能力。除此之外,Numpy还内建了大量的函数,方...原创 2019-11-24 23:10:16 · 412 阅读 · 0 评论 -
数据挖掘与数据分析
一、数据挖掘和数据分析概述数据挖掘和数据分析都是从数据中提取一些有价值的信息,二者有很多联系,但是二者的侧重点和实现手法有所区分。数据挖掘和数据分析的不同之处:1、在应用工具上,数据挖掘一般要通过自己的编程来实现需要掌握编程语言;而数据分析更多的是借助现有的分析工具进行。2、在行业知识方面,数据分析要求对所从事的行业有比较深的了解和理解,并且能够将数据与自身的业务紧密结合起来;而数...转载 2019-11-24 17:55:24 · 761 阅读 · 0 评论 -
Python数据分析——线性回归算法
现实例子:工资 年龄 额度 4000 25 20000 8000 30 70000 5000 28 35000 7500 33 50000 12000 40 85000 数据:工资和年龄(2个特征,当然可以有多个特征)目标:预测能从银行贷多少钱(标签)考虑:工资和年龄都会影响最终银行贷款的结...原创 2019-11-24 17:09:05 · 537 阅读 · 0 评论 -
Python数据分析——数据建模、数据分类实现过程、常见分类算法
python数据建模概述数据建模指的是对现实世界各类数据的抽象组织,建立一个适合的模型对数据进行数据在数据分析与挖掘中,我们通常需要根据一些数据建立起特定的模型,然后处理。模型的建立需要依赖于算法,一般,常见的算法有分类、聚类、关联、回归等。python数据分类实现过程数据分类主要处理现实生活中的分类问题,一般处理思路如下:1、首先是明确需求,并对数据进行观察,对数据预处理...原创 2019-11-24 14:04:52 · 2649 阅读 · 0 评论 -
Python数据分析——文本挖掘
分词,用jiaba# 分词import jiebadoc = '我喜欢上海东方明珠'# 全模式;精准模式;搜索引擎模式w1 = jieba.cut(doc,cut_all=False) # 参数1:数据 参数2:模式 有三种模式,这里使用了精准模式for item in w1: print(item)运行结果:Building prefix dict from ...原创 2019-11-24 13:42:05 · 488 阅读 · 0 评论 -
Python数据分析——数据变换和数据规约(主成分分析)
数据变换简单变换1、数据变换的目的是将数据转化为更方便分析的数据2、简单变换通常使用函数变换的方式进行,常见的函数变换包括:开方,平方,对数等数据规范化1、离差标准化--消除量纲(单位)影响以及变异大小因素的影响(最小最大标准化) x1 = (x-min) / (max-min) # 将大数据转为小数据2、标准差标准化--消除单位影响以及变量自身变异影响。...原创 2019-11-24 11:01:10 · 1158 阅读 · 0 评论 -
Python数据分析——数据分布探索与数据集成
探索数据的分布规律,非常有用,有时可以直接发现数据的规律。可以做直方图,做频数的分布情况先求极差:极差:最大值-最小值再求组距:组距:极差/组数数据集成的概述数据集成一般是把不同来源的数据放在一起。但是来自多个地方的数据一定要做好实体识别与冗余属性识别,避免数据整合错误寄数据重复数据集成技巧一般来说,数据集成的过程如下:1、观察数据源,发现其中关系,详细查看...原创 2019-11-24 09:53:25 · 938 阅读 · 1 评论 -
Python数据分析——数据探索与数据清洗
数据探索与数据清洗概述数据探索的目的是早发现数据的一些简单规律,数据清洗的目的是留下可靠数据,必满脏数据的干扰。这两者没有严格的先后顺序。经常在一个阶段进行。数据探索核心数据质量分析(跟数据清洗密切相关)数据特征分析(分布、对比、周期性、相关性、常见统计量)数据清洗的步骤1、缺失值处理(通过describe与len直接发现、通过0数据发现【不可能为0的数据】)2、异常值...原创 2019-11-23 15:10:16 · 828 阅读 · 0 评论 -
Python数据分析——matplotlib直方图
通过直方图可以很方便知道数据的分布情况绘制直方图import numpy as npimport matplotlib.pylab as pyl# 生成随机数# data = np.random.randint(1,20,10) # 第一个参数最小值 第二个参数最大值 生成随机数的个数# 生成正态分布的随机数data2 = np.random.normal(5.0,2.0...原创 2019-11-23 11:58:50 · 758 阅读 · 0 评论 -
Python数据分析——matplotlib折线图和散点图
一般情况下,绘制折线图和散点图使用matplotlib.pylab下的plot,绘制折线图使用matplotlib.pylab下的hist绘制折线图# 折线图/散点图,一般使用plot# 直方图,一般使用histimport matplotlib.pylab as pylx = [1,2,3,4,8] # x轴数据y = [5,7,8,9,10] # y轴数据pyl.plot(...原创 2019-11-23 11:10:49 · 1610 阅读 · 0 评论 -
Python数据分析——数据导入
导入csv数据csv是一种常见的数据存储格式,基本上我们遇到的数据都可以转为这种存储格式。在Python数据分析中,可以通过pandas模块导入csv数据i= pd.read_csv("文件地址")print(i.describe())# 按照某一列进行排序i.sort_values(by='列名')i.head(10)导入excel数据i = pd.read_exce...原创 2019-11-23 10:01:47 · 565 阅读 · 0 评论 -
Python数据分析——相关模块的基本使用
1、numpy使用数组中的排序,使用sort()方法x = numpy.array([['8','9','5'],['1','2','3']])x.sort()print(x)print(type(x))运行结果:[['5' '8' '9'] ['1' '2' '3']]<class 'numpy.ndarray'>数组中取最大值和最小值,使用max(...原创 2019-11-22 17:57:19 · 204 阅读 · 0 评论 -
Python数据分析——数据分析与挖掘相关模块
相关模块简介1、numpy 可以高效处理数据、提供数组支持,是很多模块的依赖,比如pandas、scipy、matplotlib都依赖这个模块,所以这个模块是基础2、pandas 用的最多的一个模块,主要用于进行数据探索可数据分析3、matplotlib作图模块,解决可视化的问题4、scipy 主要进行数值计算,同时支持矩阵运算,并提供了很多高等数据处理功能,比如积分、傅里叶...原创 2019-11-22 16:29:55 · 401 阅读 · 0 评论 -
Python数据分析——了解数据分析与挖掘技术
什么是数据分析与数据挖掘技术?所谓的数据分析,就是对已知的数据进行分析,然后提取出一些有价值的信息,比如统计出平均数、标准差等信息,数据分析的数据量有时可能不会太大,而数据挖掘,是指对大量的数据进行分析与挖掘,得到一些未知的,有价值的信息等,比如从网站的用户或者用户行为数据中挖掘出用户潜在的需求信息等,从而对网站进行改善等。数据分析与数据挖掘密不可分,数据挖掘是数据分析的提升。数据挖掘...原创 2019-11-22 15:49:36 · 384 阅读 · 0 评论