自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 数据处理中的异常值问题

查找和处理数据中的异常值很重要,但是有很多种的异常数值和反常现象。具体如何处理,取决于你所处理的类型。 异常数值可能有很多种原因: 1、异常数值可能是极端案例的准确数值 2、有些异常值和反常现象代表的是坏数据或者数据的限制...

2018-03-31 19:13:45 1561

原创 【Udacity】3,3,3,伪Facebook用户数据

导入数据,list.files()用于列出当前路径下的文件明细> getwd()[1] "C:/Users/Administrator/Downloads"> list.files() [1] "【模板】终止协议-专车-20170623.docx" "01DiDi-zhongwen.zip" [3] "01sh...

2018-03-31 18:42:29 261

原创 【Udacity】4,1,2,为什么使用数据可视化

安斯库姆四重奏我们为何要使用数据可视化?当我们直接看到数据(而不是当做一组数据放到表格中)时,我们更容易看出数据之间的关系。下面这组数据叫做安斯库姆四重奏:I (x) I (y) II (x) II (y) III (x) III (y) IV (x) IV (y) 10.0 8.04 10.0 9.14 10.0 7.46 8.0 6....

2018-03-31 16:03:35 363

原创 【Udacity】3,2,13,因子变量

因子变量使用数据reggit.csv,谁是reddit * 导入数据> getwd()[1] "C:/Users/Administrator/Documents"> setwd('C:/Users/Administrator/Downloads')> reggit <- read.csv('reddit.csv')使用搅拌命令,str命令–str(...

2018-03-31 15:56:40 563

原创 【Udacity】3,2,12,R-markdown文档

你需要安装并加载 knitr 包,以便使用 KNIT HTML 按钮。在 RStudio 控制台中运行以下命令,以安装并加载 knitr。install.packages('knitr', dependencies = T)library(knitr)注意R脚本和RMD文件的区别: R脚本只能包含R代码和备注,而RMD(R-Markdown文件)文件允许我们完成更多任务。 RMD...

2018-03-30 20:56:56 236

原创 【Udacity】3,2,11,阅读并将数据子集化--R

读取数据之前,我们要先设置我们的工作目录。#查看你所在的目录> getwd()[1] "C:/Users/Administrator/Documents"#设置所在的目录> setwd('C:\Users\Administrator\Downloads')Error: '\U' used without hex digits in charac正斜杠来划分你的路径...

2018-03-30 19:45:26 230

原创 Python数据挖掘--时间序列

概念时间序列:(TIME SERIES)均匀时间间隔的观测值序列 时间序列分析:(Time Series Analysis)趋势分析,序列分解,序列预测序列分解时间序列分解(Time-Series Decomposition)时间序列按照季节性来分类:分为季节性时间序列和非季节性时间序列非季节性时间序列:趋势部分,不规则部分季节性时间序列:趋势部分,不规则部分,季节性部...

2018-03-29 18:36:14 1832

原创 python数据分析---数据评估

评估数据是数据整理的第二步。评估数据就像作侦探一样,检查数据集是否存在两个问题:数据质量问题(即内容问题)和缺乏整洁度(即结构性问题)。 数据质量问题包含:数据缺失,数据重复以及数据错误等问题。又被称为脏数据 不整洁或杂乱的数据存在明显的结构问题。 评估的两个方法:目测评估,代码编程评估首先,对脏数据和杂乱数据进行明确定义: 为了方便理解,将数据想象成卧室,一间脏兮兮的卧室可能有脏盘子...

2018-03-24 16:55:29 2629

原创 python中的json文件

json结构 API的 大部分数据都是JSON和XML格式,W3Schools提供相应的课程。 JSON(Javescript Object Natation )顾名思义 JaveScript对象标记。而XML可延伸标记语言。 这两种格式都有自己的用例。 下面重点说一下Json: 很多情况下,能用列表数据体现的内容有限;有时数据字段具有多个条目。用列表显示此数据将会很奇怪。 我们需...

2018-03-15 21:01:32 690

原创 按照时间抽取数据

一、按照时间抽取主要有两种方法1.时间列作为索引列进行抽取 2.时间列不作为索引列进行抽取 二、时间列作为索引列进行提取实例 重点:时间列转换为日期格式,日期列而是索引DataFrame.ix[start:end] 此处是冒号DataFrame.ix[dates]import pandasfrom pandas import read_csvdata = re...

2018-03-13 13:45:37 1332

原创 pandas.group by 函数

group by函数在使用Python进行分组分析时使用非常频繁,使用group by可以对数据进行简单的分组分析。 一、分组列一列,计算列一列的写法一组分组列,一组计算列,一种计算方式aggResult = data.groupby(by=['年龄分层'])['年龄'].agg({'人数': numpy.size})grouped = data.年龄.groupby(data....

2018-03-08 12:20:10 3723

原创 【Udacity】3,1 ,什么是EDA

EDA:(Exploratory Data Analysis)是数据收集,学习及操作流程等大量过程中的一部分,又称探索性数据分析。 一、数据无处不在 data.gov网站 Facebook网站:Facebook的日数据处理量超过500TB-2012 (https://www.cnet.com/news/facebook-processes-more-than-500-tb-of-data-...

2018-03-07 18:13:44 559

原创 SQL应用1

SELECTNOW() AS 日期,SUM(在线天数) AS 在线数,SUM(完单天数) AS 完单数,AVG(应收) AS 收入,AVG(服务分) AS 平均服务分FROM(SELECT 收入表.ID, 服务分.日期, 收入表.合作模式, 收入表.级别, 收入表.所在劳务公司,信息.姓名, 服务分.车型, 服务分.时间, 服务分.驾管姓名, 服务分.小组id, 服务分.组长姓名, ...

2018-03-07 15:13:14 141

原创 关于CUT函数报错解决

问题: 在使用cut函数时,出现以下报错: 原因: bins = [“min(twitter_archive_master.scale)-1”,”10”,”20”,”max(twitter_archive_master.scale)+1”], lables = [‘10级以下’,’10到20级’,’20级以上’] 上面的bins各值不应该用引号括起来,括起来之后就不再是数字格式,因此...

2018-03-06 15:45:21 878

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除