数据清洗
文章平均质量分 68
海人001
爱码仕
展开
-
python包 pandas基础用法转载
一、生成数据表1、首先导入pandas库,一般都会用到numpy库,所以我们先导入备用:import numpy as npimport pandas as pd2、导入CSV或者xlsx文件:df = pd.DataFrame(pd.read_csv('name.csv',header=1))df = pd.DataFrame(pd.read_excel('name.xls...原创 2018-09-10 20:50:55 · 10602 阅读 · 0 评论 -
GroupBy技术-----python进行数据分析
GroupBy技术>>> import numpy as np>>> from pandas import DataFrame,SeriesBackend TkAgg is interactive backend. Turning interactive mode on.>>> df = DataFrame({'key1':['...原创 2018-10-19 10:35:09 · 10387 阅读 · 0 评论 -
python数据聚合-----python进行数据分析
数据聚合quantile用于计算样本的分位数>>> df = DataFrame({'key1':['a','a','b','b','a'],'key2':['one','two','one','two','one'],'data1':np.random.randn(5),'data2':np.random.randn(5)})>>> >&g...原创 2018-10-19 18:44:46 · 10606 阅读 · 0 评论 -
DataFrame分组级运算和转换
目录前言apply:一般性的‘拆份-应用-合并’禁止分组建分位数和桶分析透视表交叉表:crosstab示例:用特定于分组的值填充缺失值示例:随机采样和队列示例:分组加权平均数和相关系数 前言假设我们为DataFrame添加用于存放各索引分组平均值的列,一个办法是先聚合在合并。>>> k1_means = df.groupby(...原创 2018-10-20 15:30:27 · 12364 阅读 · 0 评论 -
python数据聚合分组实战-----2012联邦选举委员会数据库
目录数据来源:根据职业和雇主统计赞助信息对出资额分组根据州统计赞助信息数据来源:https://github.com/wesm/pydata-book>>> fec = pd.read_csv('D:\python\DataAnalysis\data\P00000001-ALL.csv',low_memory = False)>>>...原创 2018-10-20 19:17:38 · 11245 阅读 · 0 评论 -
python时间序列-----前半篇---python进行数据分析
目录简介日期和时间数据类型及工具字符串和datetime的互相转换时间序列基础索引、选取、子集构造带有重复索引的时间序列日期的范围、频率及移动生成日期范围频率和日期偏移量WOM日期移动(超前和滞后)数据通过偏移量对日期进行位移时区处理本地化和转换操作时区意识型Timestamp对象不同时区之间的运算简介时间序列是一种重要的格式...原创 2018-10-21 16:06:24 · 10676 阅读 · 0 评论 -
python时间序列-----中篇---python进行数据分析 period 、timestamp、 periodindex、 date_range、 resample、 OHLC、
目录时期及其算数运算时期的频率转换按季度计算的时期频率将Timestamp转换为Period(及其反向过程)通过数组创建PeriodIndex重采样及频率转换降采样OHLC重采样通过groupby进行重采样升采样和插值通过时期进行重采样时期及其算数运算时期-period 表示的是时间区间,比如数日,数月,数季,数年等。>>>...原创 2018-10-22 16:30:08 · 15044 阅读 · 0 评论 -
python时间序列-----后半篇---绘图、窗口函数、性能内存
目录时间序列绘图移动窗口函数指数加权函数二元移动窗口函数用户自定义的移动窗口函数性能和内存使用方面的注意事项时间序列绘图>>> import pandas as pdBackend TkAgg is interactive backend. Turning interactive mode on.>>> import num...原创 2018-10-23 15:39:01 · 11436 阅读 · 0 评论 -
NumPy高级应用与python高级数组操作
目录ndarray对象的内部机理NumPy数据类型体系高级数组操作--数组重塑数组的合并和拆分堆叠辅助类:r_和c_元素的重复操作:tile和repeat花式索引的等价函数:take和putndarray对象的内部机理Numpy的ndarray提高了一种将同质数据块(可以是连续的跨越的)解释为多维数组的对象的方式。正如你之前所看到的那样,数据类型决定了数据的解释...原创 2018-10-25 10:34:38 · 11103 阅读 · 0 评论 -
广播、ufunc高级应用、结构化和记录式数组
目录简介沿其他轴向广播通过广播设置数组的值ufunc高级应用自定义的ufunc架构化和记录式数组其他排序算法结束简介广播指的是不同形状数组之间的算术运算的执行方式。它是一种非常强大的功能>>> import numpy as np >>> arr = np.arange(5)>>> arrar...原创 2018-10-25 21:34:21 · 10370 阅读 · 0 评论 -
爱丽丝梦游仙境---python云图
目录WordCloud功能文章和底片来源无底片云图 有底片云图 中文云图WordCloud功能(1) 文本预处理(2) 词频统计(3) 将高频词以图片形式进行彩色渲染文章和底片来源https://github.com/amueller/word_cloud/tree/master/examples无底片云图from os import path...原创 2018-11-09 18:04:22 · 11869 阅读 · 0 评论 -
Basemap实战---图形化显示海地地震危机数据
数据来源https://github.com/wesm/pydata-book>>> import pandas as pd>>> from pandas import DataFrame,Series>>> import numpy as np>>> data = pd.read_csv('D:\python...翻译 2018-10-17 23:48:47 · 10994 阅读 · 0 评论 -
matplotlib Subplot pandas绘图-----python绘图、可视化
目录matplotlib API入门-Figure和Subplot调整subplot周围间距颜色、标记和线型刻度标签和图例---设置标题、轴标签、及刻度高度添加图例在Subplot上绘图将图标到存到文件pandas中的绘图函数线形图柱状图散布图绘图是数据分析工作的最重要任务之一,是探索的一部分。matplotlib API入门-Figure和Su...原创 2018-10-16 21:48:38 · 14011 阅读 · 0 评论 -
DataFrame实战-----数据规整化之USDA食品数据库-----python数据分析
目录文件下载地址抽取数据分析过程文件下载地址美国农业部USDA制作一份有关食物营养的数据库。由Ashley Williams制作出JSON版。https://raw.githubusercontent.com/wesm/pydata-book/2nd-edition/datasets/usda_food/database.json*文件比较大,建议先下载好在导进去而不是...原创 2018-10-15 17:05:12 · 11694 阅读 · 0 评论 -
数据清晰大全-python,python矩阵转换,合并,重塑。
目录合并数据集--数据库风格的DataFrame合并索引上的合并轴向连接合并重叠数据重塑和轴向旋转--重塑层次化索引将长格式转换为宽格式数据转换--移除重复数据利用函数或映射进行数据转换替换值离散化和面元划分检测和过滤异常值排列和随机取样计算指标/哑变量字符串操作--字符串对象方法正则表达式 regexpandas中矢量化的字符串函数...原创 2018-10-14 23:12:08 · 10561 阅读 · 0 评论 -
python数据加载存储 python文件格式-----python进行数据分析
目录读写文本格式的数据逐块读取文本文件将数据写出到文本手工处理分割符格式网络数据提取读写文本格式的数据>>> import pandas as pdBackend TkAgg is interactive backend. Turning interactive mode on.>>> pd.read_csv('D:\pyt...原创 2018-10-13 16:02:19 · 10419 阅读 · 0 评论 -
python层次化索引-----python进行数据分析、pandas
目录层次化索引根据级别汇总统计使用DataFrame的列层次化索引层次化索引是pandas的一项重要功能,它使你在一个轴上拥有多个索引级别,可以是你以低维度的形式处理高维度的数据。levels是索引集合和它的空间结构labels是索引在levels中索引的集合> from pandas import DataFrame,SeriesBackend TkAg...原创 2018-10-13 11:46:49 · 11440 阅读 · 0 评论 -
python处理缺失数据、过滤,填补-----python进行数据分析
目录处理缺失数据滤除缺失数据填补缺失数据处理缺失数据pandas的设计目标之一就是让缺失数据的处理任务更轻松,pandas使用浮点值NaN表示浮点数组和非浮点数组中的缺失数据,是一个便于被检测的标记python内置的None也会被当作NA处理from pandas import Series>>> string_data = Series(['aa...原创 2018-10-12 13:48:14 · 12146 阅读 · 0 评论 -
python 相关系数、协方差、唯一值、值计数、成员资格-----python进行数据分析
目录汇总和计算描述统计相关系数与协方差唯一值,值计数及成员资格汇总和计算描述统计Na值会被自动排除,通过skipna选项可以禁用该功能>>> df = DataFrame([[1.4,np.nan],[7.1,-4.5],[np.nan,np.nan],[0.75,-1.3]],index=['a','b','c','d'],columns=['one'...原创 2018-10-12 09:47:55 · 11887 阅读 · 0 评论 -
Pandas库的基本功能---python进行数据分析
目录 重建索引丢弃指定轴上的项索引,选取和过滤在算数方法中填充值DataFrame与Series之间的运算函数应用和映射 排序和排名带有重复值的轴索引本篇文章内容来自《利用python进行数据分析》一书,仅为方便平时使用,如有错误请反馈重建索引reindex用于创建一个适应新索引的新对象。如果某个索引值当前不存在就进入一个缺失值。>>...原创 2018-10-11 13:23:27 · 11069 阅读 · 0 评论 -
DataFrame入门-----python进行数据分析
DataFrame是一个表格型的数据结构,他含有一组有序的列,每列可以是不同的值类型。DataFrame既有行索引也有列索引。DataFrame中的数据块以一个或多个二维数据块存放的。>>> data={'state':['a','b','c'],'year':[2000,2001,2002],'pop':[1.5,1.6,1.7]}>>> Da...原创 2018-10-09 17:46:35 · 10536 阅读 · 0 评论 -
Series入门-----python进行数据分析
Series是一种类似于一维数组的对象,它由一组数据及一组与之相关的数据标签组成。Series的字符串表示为索引在左,值在右。>>> from pandas import DataFrame,SeriesBackend TkAgg is interactive backend. Turning interactive mode on.>>> im...原创 2018-10-09 16:09:39 · 10386 阅读 · 0 评论 -
随机漫步范例-----python
简单随机漫步通过随机漫步范例说明如何运用数组运算,下面是一个简单的例子,从位置0开始,步长-方向为1且出现概率相等。>>> import random>>> position = 0>>> walk = [position]>>> steps = 1000>>> for i in x原创 2018-10-08 22:26:10 · 10846 阅读 · 0 评论 -
利用python进行数据分析-----第二篇 Numpy 数组 矢量计算 索引 切片 转置 轴对换 文件输入输出
目录 Numpy简介ndarray 一种多维数组对象创建ndarray其他数组创建函数ndarray的数据类型数组和标量之间的运算基本的索引和切片高维切片索引布尔值索引花式索引数组转置和轴对换计算矩阵的内积 transpose函数通用函数:快速的元素级数组函数两数组取最大返回整数和小数部分其他函数利用数组进行数据处理将...原创 2018-10-07 13:12:46 · 10659 阅读 · 0 评论 -
利用python进行数据分析----- 第一天,准备工作。DataFrame,Series,Matplotlib
目录 工具创建变量删除变量获取数据下载地址:引入文件: 转换为json:解析数据 单个对象输出获取所有时区引入自定义函数 使用函数:获取数量前十的时区,倒序:使用pandas对时区进行计数 获取数量前十的时区:替代填补缺失值:绘制水平条形图解析Agent字符串构建间接索引进行统计生成条形堆积图 比例分布有问...原创 2018-10-06 10:16:16 · 10758 阅读 · 0 评论 -
使用Excel进行销量的滚动预测
6周销量的滚动预测伴随着总销售量逐渐增长,信息越来越多,可帮助更新需求预测,滚动预测可以尽快纠偏跟踪需求,定期、及时更新滚动预测的数据,可以有力采取纠偏行动1-6-V1预测图1-6-V2预测图1-6-V3预测图1-6-V4预测TU1-6-V5预测图滚动预测过程中R平方与标准误差的变化R平方:虽然中期有下降趋势,但最后改正上...原创 2019-08-14 10:32:24 · 13749 阅读 · 0 评论