数据分析
文章平均质量分 52
Great1414
不破不立
展开
-
Numpy中数组转置和轴对换——transpose、T、swapaxes
以多维数组为例,如:(2, 2, 4)表示 2个2X4矩阵,可以理解为(2[0], 2[1], 2[2]),其中[0]表示0轴。import numpy as np arr=np.arange(16).reshape(2,2,4) array([[[ 0, 1, 2, 3], [ 4, 5, 6, 7]], [[ 8, 9, 10...转载 2018-03-18 11:50:18 · 7552 阅读 · 1 评论 -
np.r_ 和 np.c_
np.r_是按列连接两个矩阵,就是把两矩阵上下相加,要求列数相等,类似于pandas中的concat()。np.c_是按行连接两个矩阵,就是把两矩阵左右相加,要求行数相等,类似于pandas中的merge()。...转载 2018-06-10 17:54:03 · 188 阅读 · 0 评论 -
机器学习系列之kdtree
目的:最近有个项目,一条公交线路上,有n个站点。现在对每个站点附近的基站,进行聚合。首先,通过爬虫并利用高德API,获取了相应的站点的经纬度信息。然后利用基站维度表(包涵经纬度),计算距离公交站点的所有基站。步骤一:爬取公交站爬虫的内容相对简单,本文不在赘述。相关内容,可以自行学习,也可以在评论里探讨。import requestsimport numpy as npimport...原创 2018-07-17 15:44:44 · 1108 阅读 · 0 评论 -
数据处理常用语句2
平时工作中,因为对数据结构与算法不是很熟悉,所以有些程序算法,嵌套了多层for,效率低。而python有一些现成的方式,如并集、交集等函数。具体参照:https://blog.csdn.net/bitcarmanlee/article/details/51622263**********************************时间序列*************************...原创 2018-07-25 10:26:41 · 259 阅读 · 0 评论 -
数据处理不常用语句3
###########################时间序列#################################data_bs.index = pd.date_range(start='2018-08-01 00:00:00',periods=744,freq='h',normalize=True)#####################################...原创 2018-08-14 19:39:30 · 175 阅读 · 0 评论 -
数据缺失值填补
缺失值填充方法包括简单填充、属性填充和实例填充三种类型,本文主要研究属性填充方式。填充依赖原始数据的单一或少量属性维度,利用属性间的关系或属性潜在的规则对缺失值进行填充。常用的属性填充方法有:基于回归分析、信息增益、灰色预测的方法和EM 算法等。基于回归分析的填充方法通过拟合回归数学模型计算缺失值,该方法仅适用于满足确定数学模型的数据集;基于信息增益的方法,依据与缺失数据关联密切的属性...转载 2018-10-15 17:20:34 · 6026 阅读 · 0 评论 -
移动平均法,滑动平均模型法(Moving average,MA)
什么是移动平均法移动平均法是用一组最近的实际数据值来预测未来一期或几期内产品的需求量的一种常用方法。移动平均法适用于即期预测。当产品需求既不快速增长也不快速下降,且不存在季节性因素时,移动平均法能有效地消除预测中的随机波动,是非常有用的。移动平均法根据预测时使用的各元素的权重不同,可以变为加权移动平均。 移动平均法是一种简单平滑预测技术,它的基本思想是:根据时间序列资料、逐项推移,依次计...原创 2018-10-16 12:22:23 · 13850 阅读 · 0 评论 -
KNN缺失填补knnimpute/impyute/fancyimpute
常见的数据缺失填充方式分为很多种,比如删除法、均值法、回归法、KNN、MICE、EM等等。R语言包中在此方面比较全面,python稍差。 目前已有的两种常见的包,第一个是impyute,第二个是fancyimpute,具体的内容请百度,此方面的例子不是很多。比如fancyimpute中也集成了很多方式,包括均值、众数、频数填充,KNN填充、MCMC填充等。...原创 2018-10-19 12:28:15 · 24771 阅读 · 9 评论 -
几个数据缺失处理,时间序列的python包——fancyimpute/impyute/knnimpute/tslearn/
由于项目的需要,对时间序列数据中存在的数据缺失和异常进行处理,所以找到几个类似的python模块,里面有knn等方式填补缺失值的算法。目前正在尝试使用中,后续有案例发上来。先附上每个包的简介和GitHub:https://pypi.org/project/fancyimpute/https://github.com/iskandr/fancyimputehttps://blog.c...原创 2018-10-17 10:49:48 · 6791 阅读 · 1 评论 -
通过城市经纬度,在百度地图显示(2)
按照上一节的方法,通过百度API获取了相应城市的经纬度,现在更加经纬度,在百度地图上标注出相应城市的位置。address_html = pd.DataFrame(columns=['content'])#构建新的数据表In [131]:#形成百度API需要的jsonfor one_index in address.index: address_html.loc[one_index, '...转载 2018-06-03 09:37:01 · 263 阅读 · 0 评论 -
通过百度API获取城市经纬度(1)
百度API秘钥,具体请参照其他教程。# 第一种,urllib把url转为urlencode,在读取网页,在json读取内容from urllib import parse query = { 'key':'zSSQF0IkTliIBjcZlbNeNaDsWIHrCS0u', 'address':'广州', 'output':'json' } base = 'http://api.map.baid...转载 2018-06-02 21:57:03 · 2950 阅读 · 0 评论 -
关于matplotlib不正常弹出图表对话框的问题
from pandas import Series, DataFrameimport numpy as npss = Series(np.random.randn(10).cumsum(), index = np.arange(0,100,10))ss.plot()<matplotlib.axes._subplots.AxesSubplot object at 0x0384B770&g...原创 2018-03-24 13:24:18 · 2395 阅读 · 1 评论 -
Pandas中关于 loc \ iloc \ ix 用法的理解
最近在很多地方看到loc,但是一直很困惑。在这个网址下,解释的比较好。https://blog.csdn.net/alanguoo/article/details/523319011. loc函数当每列已有column name时,用 df [ 'a' ] 就能选取出一整列数据。如果有column names 和index,且两者都很好输入,可以选择 .loc。loc函数是指根据索引项的索引名,进...原创 2018-03-25 09:29:49 · 9780 阅读 · 1 评论 -
DataFrame数据中的重复行,利用groupby累加合并
pandas读取一组数据,可能存在重复索引,虽然可以利用drop_duplicate直接删除,但是会删除重要信息。比如同一ID用户,多次登录学习时间。要计算该用户总共‘’学习时间‘’,就要把重复的ID的‘’学习时间‘’累加。可以结合groupby和sum函数完成该操作。实例如下: 新建一个DataFrame,计算每个 id 的总共学习时间。其中 id 为one/two的存...原创 2018-03-31 11:26:19 · 35426 阅读 · 5 评论 -
探索性分析——某医院18年销售数据分析
针对某医院18年销售记录,做简单的数据分析,熟悉相关语法及分析过程。一、分析目的以某医院18年销售数据为例,了解18年的销售情况,分析几个业务指标,例如:月均消费次数,月均消费金额、客单价以及消费趋势等,可以用于了解不同季节的病情、指导医院备货等。二、 数据分析过程数据分析过程基本包括:数据获取、数据清洗、模型构建、数据可视化、相关分析等1、数据获取根据已有的18年销售单据,提取相应的数据。(本次...原创 2018-03-25 20:15:21 · 2123 阅读 · 1 评论 -
面包重量预测——matplotlib、numpy的小练习
import pandas as pdimport matplotlib.pyplot as plt#转换时间格式from dateutil.parser import parseimport numpy as np#读取数据bread_data = pd.read_csv(r'C:\Users\Administrator\Desktop\breads.csv')#显示前五行...原创 2018-04-02 22:22:57 · 312 阅读 · 0 评论 -
调查问卷——matplotlib、scipy小练习
一组调查问卷,从中探索顾客、店主对于商品、服务、活动的态度。本次练习主要学习内容,包括数据重新构造、可视化堆积图、卡方检验一、数据重构import pandas as pd#读取数据,并显示前5行。识别数据类型及属性。survey = pd.read_csv(r'C:\Users\Administrator\Desktop\survey.csv', encoding = 'utf-8')su...原创 2018-04-03 22:03:03 · 254 阅读 · 0 评论 -
APP应用市场数据分析
APP应用市场数据分析项目描述:针对采集的网上购物类APP的数据,分析各类APP的经营现状,探索现今人们生活所需的服务及偏好,抓住市场的发展动向。项目职责:1.网上购物类APP的数据采集、数据集的处理和整合; 2.数据的可视化,及对各类APP的分析; 3.构建回归模型,确定好评率与各因素的关系并分析; ...原创 2018-04-22 11:30:58 · 7977 阅读 · 1 评论 -
二手车市场探索性数据分析
二手车市场探索性数据分析项目描述:近年随着汽车工业发展,二手车市场越来越火热。根据获取的二手车市场数据,对影响二手车价格的因素进行研究与分析项目职责:1.二手车市场的数据采集和数据集的预处理 2.可视化分析,确定二手车价格的影响因素 3.针对关键因素,分析对二手车价格的影响规律 4.分析图表的制作及分析...原创 2018-04-22 21:47:06 · 3397 阅读 · 1 评论 -
grouby分组后,如何变成无空缺的dataframe
df = df.groupby(["day","hour","minute"]).mean()分组后,显示如下: df.reset_index(inplace=True)reset_index后,结果如下:小技巧原创 2018-12-28 21:46:17 · 437 阅读 · 0 评论