2018年03月_木南花

原创数据处理中的异常值问题

查找和处理数据中的异常值很重要，但是有很多种的异常数值和反常现象。具体如何处理，取决于你所处理的类型。异常数值可能有很多种原因： 1、异常数值可能是极端案例的准确数值 2、有些异常值和反常现象代表的是坏数据或者数据的限制...

2018-03-31 19:13:45 1561

原创【Udacity】3,3,3，伪Facebook用户数据

导入数据，list.files()用于列出当前路径下的文件明细> getwd()[1] "C:/Users/Administrator/Downloads"> list.files() [1] "【模板】终止协议-专车-20170623.docx" "01DiDi-zhongwen.zip" [3] "01sh...

2018-03-31 18:42:29 261

原创【Udacity】4,1,2，为什么使用数据可视化

安斯库姆四重奏我们为何要使用数据可视化？当我们直接看到数据（而不是当做一组数据放到表格中）时，我们更容易看出数据之间的关系。下面这组数据叫做安斯库姆四重奏：I (x) I (y) II (x) II (y) III (x) III (y) IV (x) IV (y) 10.0 8.04 10.0 9.14 10.0 7.46 8.0 6....

2018-03-31 16:03:35 363

原创【Udacity】3,2,13，因子变量

因子变量使用数据reggit.csv，谁是reddit * 导入数据> getwd()[1] "C:/Users/Administrator/Documents"> setwd('C:/Users/Administrator/Downloads')> reggit <- read.csv('reddit.csv')使用搅拌命令，str命令–str(...

2018-03-31 15:56:40 563

原创【Udacity】3,2,12，R-markdown文档

你需要安装并加载 knitr 包，以便使用 KNIT HTML 按钮。在 RStudio 控制台中运行以下命令，以安装并加载 knitr。install.packages('knitr', dependencies = T)library(knitr)注意R脚本和RMD文件的区别： R脚本只能包含R代码和备注，而RMD（R-Markdown文件）文件允许我们完成更多任务。 RMD...

2018-03-30 20:56:56 236

原创【Udacity】3,2,11，阅读并将数据子集化--R

读取数据之前，我们要先设置我们的工作目录。#查看你所在的目录> getwd()[1] "C:/Users/Administrator/Documents"#设置所在的目录> setwd('C:\Users\Administrator\Downloads')Error: '\U' used without hex digits in charac正斜杠来划分你的路径...

2018-03-30 19:45:26 230

原创 Python数据挖掘--时间序列

概念时间序列：（TIME SERIES）均匀时间间隔的观测值序列时间序列分析：（Time Series Analysis）趋势分析，序列分解，序列预测序列分解时间序列分解（Time-Series Decomposition）时间序列按照季节性来分类：分为季节性时间序列和非季节性时间序列非季节性时间序列：趋势部分，不规则部分季节性时间序列：趋势部分，不规则部分，季节性部...

2018-03-29 18:36:14 1832

原创 python数据分析---数据评估

评估数据是数据整理的第二步。评估数据就像作侦探一样，检查数据集是否存在两个问题：数据质量问题（即内容问题）和缺乏整洁度（即结构性问题）。数据质量问题包含：数据缺失，数据重复以及数据错误等问题。又被称为脏数据不整洁或杂乱的数据存在明显的结构问题。评估的两个方法：目测评估，代码编程评估首先，对脏数据和杂乱数据进行明确定义：为了方便理解，将数据想象成卧室，一间脏兮兮的卧室可能有脏盘子...

2018-03-24 16:55:29 2629

原创 python中的json文件

json结构 API的大部分数据都是JSON和XML格式，W3Schools提供相应的课程。 JSON（Javescript Object Natation ）顾名思义 JaveScript对象标记。而XML可延伸标记语言。这两种格式都有自己的用例。下面重点说一下Json: 很多情况下，能用列表数据体现的内容有限；有时数据字段具有多个条目。用列表显示此数据将会很奇怪。我们需...

2018-03-15 21:01:32 690

原创按照时间抽取数据

一、按照时间抽取主要有两种方法1.时间列作为索引列进行抽取 2.时间列不作为索引列进行抽取二、时间列作为索引列进行提取实例重点：时间列转换为日期格式，日期列而是索引DataFrame.ix[start:end] 此处是冒号DataFrame.ix[dates]import pandasfrom pandas import read_csvdata = re...

2018-03-13 13:45:37 1332

原创 pandas.group by 函数

group by函数在使用Python进行分组分析时使用非常频繁，使用group by可以对数据进行简单的分组分析。一、分组列一列，计算列一列的写法一组分组列，一组计算列，一种计算方式aggResult = data.groupby(by=['年龄分层'])['年龄'].agg({'人数': numpy.size})grouped = data.年龄.groupby(data....

2018-03-08 12:20:10 3723

原创【Udacity】3,1 ，什么是EDA

EDA：（Exploratory Data Analysis）是数据收集，学习及操作流程等大量过程中的一部分，又称探索性数据分析。一、数据无处不在 data.gov网站 Facebook网站：Facebook的日数据处理量超过500TB-2012 （https://www.cnet.com/news/facebook-processes-more-than-500-tb-of-data-...

2018-03-07 18:13:44 559

原创 SQL应用1

SELECTNOW() AS 日期,SUM(在线天数) AS 在线数,SUM(完单天数) AS 完单数,AVG(应收) AS 收入,AVG(服务分) AS 平均服务分FROM(SELECT 收入表.ID, 服务分.日期, 收入表.合作模式, 收入表.级别, 收入表.所在劳务公司,信息.姓名, 服务分.车型, 服务分.时间, 服务分.驾管姓名, 服务分.小组id, 服务分.组长姓名, ...

2018-03-07 15:13:14 141

原创关于CUT函数报错解决

问题：在使用cut函数时，出现以下报错：原因： bins = [“min(twitter_archive_master.scale)-1”,”10”,”20”,”max(twitter_archive_master.scale)+1”], lables = [‘10级以下’,’10到20级’,’20级以上’] 上面的bins各值不应该用引号括起来，括起来之后就不再是数字格式，因此...

2018-03-06 15:45:21 878

aryena的花花世界