大数据基础-数据整理

"""
修改记录:
    1.整体修改,通过df[列名]=值,用值来整体替换df[列]的值
    2.个别修改:
           2.1单只替换:命令格式为:df.repalce('B','A')表示用A值替换B值
           2.2指定列值替换:命令格式为:df.replace({'列名 C','A'},B),表示用B值来替换列名为C中的A的值
           2.3多值替换:命令格式为df.replace([A,B,C.....],[E,F,G.....]),表示用E,F,G.....来替换A,B,C.....的值
A,B,C.....
"""
from pandas import read_excel
df=read_excel(r'i_nuc.xls',sheet_name='Sheet3');
print(df)
print('-------------------------');
# 全部替换;用0表示数据中缺考成绩
df1=df.replace('缺考',0);
print(df1)
print('------------------------')
#单值替换,用hello 来替换数据中体育成绩中的作弊分数
df2=df.replace({'体育':'作弊'},'hello')
print(df2)
print('-----------------------')
#多值替换,将缺考替换成为hello,将作弊替换成world
df3=df.replace(['缺考','作弊'],['hello','world']);
print(df3);
print('***********************')

'''
交换行与列:
    可以使用df。redinex方法来交换数据中的行或列的数据
'''
import pandas as pd
df=pd.DataFrame({'a':[1,2,3],'b':['hello','world','python'],'c':['bei','fang','mingzu']})
print(df);
print('--------------------------------------')
# 交换行
hang=[0,2,1];
df1=df.reindex(hang);
print(df1);
print('-------------------------------------')
# 交换列
lie=['a','c','b']
df2=df.reindex(columns=lie);
print(df2);
# 还可以通过loc的相关语法对数据进行交换
df3=df
df3.loc[[0,2],:]=df3.loc[[2,0],:]#将第一行与第三行的数据进行交换
print(df3);
print('----------------------------')
df4=df
df4.loc[:,['b','a']]=df4.loc[:,['a','b']];
print(df4);
'''
通过交换列,行的方法可以实现插入一个列的数据
    1、新增一个列
    2、交换这两列的值
    3、交换这两列的列名
'''
print('---------------------------')
df['d']=range(len(df.index))
print(df);
print('--------------------------')
# 交换值
df.loc[:,['b','d']]=df.loc[:,['d','b']].values
print(df)
# 交换列名
Lie=list(df.columns)
# 获取列名的index
i=Lie.index('b');
j=Lie.index('d');

print(Lie);
print(i,j)
# 交换两个index
Lie[i],Lie[j]=Lie[j],Lie[i];
# 重新赋值
df.columns=Lie
print(df);
"""
排名索引:
    简单的数据计算:通过各个字段对数据进行加减乘除的操作,得出新的字段
    
"""
from pandas import read_excel
df=read_excel(r'i_nuc.xls',sheet_name='Sheet3')
print('------------------------')
jianji=df['解几'].astype(int);
gaodai=df['高代'].astype(int);
print(jianji)
print(gaodai)
print('------------------------')
df['高代+解几']=jianji+gaodai;
print(df)
print('-----------------------')
"""
数据标准化,也成为数据归一化。为了消除指标之间的量纲的影响,需要进行数据的标准化处理,以解决数据之间的可比性。
    数据标准化的常用方法:
        1.min-max标准化,公式为:X=(x-min)/(max-min);其中min为最小值,max为数据的最大值
"""
from pandas import read_excel
df=read_excel(r'i_nuc.xls',sheet_name='Sheet3')
print(df['数分'].astype(int))
print('-----------------------')
scale=(df['数分'].astype(int)-df['数分'].astype(int).min())/(df['数分'].astype(int).max()-df['数分'].astype(int).min())
print(scale)
print('-----------------------')
"""
Z-score标准化方法,适用于数据中的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况,其公式为
        X=(x-u)/&,其中u表示均值,&表示标准差
        使用sklearn.preprocessing.scale()函数,可以直接将给定的数据进行标准化
"""
from sklearn import preprocessing
df1=df['数分']
print(df1)
print('------------------------')
sf_score=preprocessing.scale(df1);
print(sf_score)
print('------------------------')
"""
数据分组:就是根据数据分析对象的特征,按照一定的指标,将数据化分为不同的区间进行研究
        其中的命令为:cut(series,bins,right=True,labels=NULL)
        其中series表示分组的数据
        bins表示分组的依据的数据
        right表示分组的时候右边是否闭合
        labels表示自定义标签,可以不自定义
"""
from pandas import read_excel
import pandas as pd
df=read_excel(r'rz.xlsx')
print('----------------------------')
print(df.head());
bins=[min(df['解几'])-1,60,70,80,max(df['解几'])+1]#划分的标准
lab=['不及格','及格','良好','优秀'];
demo=pd.cut(df['解几'],right=False,bins=bins,labels=lab);
print(demo);
df['demo']=demo;
print(df);


在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
基于⼤数据数据仓库-数据仓库建模基本理论 (内容整理⾃⽹络学习视频) ⼀、数仓建模的⽬标 访问性能:能够快速查询所需的数据,减少数据I/O。 数据成本:减少不必要的数据冗余,实现计算结果数据复⽤,降低⼤数据系统中的存储成本和计算成本。 使⽤效率:改善⽤户应⽤体验,提⾼使⽤数据的效率。 数据质量:改善数据统计⼝径的不⼀致性,减少数据计算错误的可能性,提供⾼质量的、⼀致的数据访问平台。 所以,⼤数据的数仓建模需要通过建模的⽅法更好的组织、存储数据,以便在性能、成本、效率和数据质量之间找到最佳平衡点。 ⼆、关系模式范式 关系型数据库设计时,遵照⼀定的规范要求,⽬的在于降低数据的冗余性和数据的⼀致性,⽬前业界范式有: 第⼀范式(1NF) 第⼆范式(2NF) 第三范式(3NF) 巴斯-科德范式(BCNF) 第四范式(4NF) 第五范式(5NF) 第⼀范式(1NF): 域都是原⼦性的,即数据库表的每⼀列都是不可分割的原⼦数据项。 例如下⾯这张表: ID ID 商品 商品 商家ID 商家ID ⽤户ID ⽤户ID 1 4件⽑⾐ B0001 U00001 "商品"字段就不是原⼦性的,可以分割成"4件"和"⽑⾐"。 第⼆范式(2NF): 在1NF的基础上,实体的属性完全依赖于主关键字,不能存在仅依赖主关键字⼀部分的属性,也就是不存在局部依赖。 例如下⾯这张表: 学⽣ID 学⽣ID 所属系 所属系 系主任 系主任 所修课程 所修课程 分数 分数 S001 物理系 张三 C001 90 S001 物理系 张三 C002 100 主键ID为"学⽣ID,所修课程",但是字段"所属系"只依赖于"学⽣ID",不符合2NF。 第三范式(3NF): 在2NF的基础上,任何⾮主属性不依赖于其它⾮主属性,也就是不存在传递依赖。 例如下⾯这张表: 订单ID 订单ID 商品ID 商品ID 商品颜⾊ 商品颜⾊ 商家ID 商家ID ⽤户ID ⽤户ID O00001 G0001 ⽩⾊ B0001 U00001 主键为"订单ID",但是字段"商品颜⾊"依赖于"商品ID",不符合3NF。 三、四种建模⽅法 1、ER实体模型 在信息系统中,将事务抽象为"实体"(Entity)、"属性"(Property)、"关系"(Relationship)来表⽰数据关联和事物描述,这种 对数据的抽象建模通常被称为ER实体关系模型。 实体:通常为参与到过程中的主体,客观存在的,⽐如商品、仓库、货位、汽车,此实体⾮数据库表的实体表。 属性:对主体的描述、修饰即为属性,⽐如商品的属性有商品名称、颜⾊、尺⼨、重量、产地等。 关系:现实的物理事件是依附于实体的,⽐如商品⼊库事件,依附实体商品、货位,就会有"库存"的属性产⽣;⽤户购买商品,依附实体 ⽤户、商品,就会有"购买数量"、"⾦额"的属性产品。 实体之间建⽴关系时,存在对照关系: 1:1:即1对1的关系 1:n:即1对多的关系 n:m:即多对多的关系 在⽇常建模中,"实体"⽤矩形表⽰,"关系"⽤菱形,"属性"⽤椭圆形。ER实体关系模型也称为E-R关系图。 应⽤场景: 1、ER模型是数据库设计的理论基础,当前⼏乎所有的OLTP系统设计都采⽤ER模型建模的⽅式。 2、Bill Inom提出的数仓理论,推荐采⽤ER关系模型进⾏建模。 3、BI架构提出分层架构,数仓底层ods、dwd也多采⽤ER关系模型进⾏设计。 2、维度建模 维度建模源⾃数据集市,主要⾯向分析场景。Ralph Kimball推崇数据集市的集合为数据仓库,同时也提出了对数据集市的维度建模,将数 据仓库中的表划分为事实表、维度表两种类型。 事实表: 在ER模型中抽象出了有实体、关系、属性三种类别,在现实世界中,每⼀个操作型事件,基本都是发⽣在实体之间的,伴随着这种操作事 件的发⽣,会产⽣可度量的值,⽽这个过程就产⽣了⼀个事实表,存储了每⼀个可度量的事件。 维度表: 维度,顾名思义,看待事物的⾓度。⽐如从颜⾊、尺⼨的⾓度来⽐较⼿机的外观,从cpu、内存等⾓度⽐较⼿机性能。 维度表⼀般为单⼀主键,在ER模型中,实体为客观存在的事务,会带有⾃⼰的描述性属性,属性⼀般为⽂本性、描述性的,这些描述被称 为维度。 ⽐如商品,单⼀主键:商品ID,属性包括产地、颜⾊、材质、尺⼨、单价等,但并⾮属性⼀定是⽂本,⽐如单价、尺⼨,均为数值型描述性 的,⽇常主要的维度抽象包括:时间维度表、地理区域维度表等。 维度建模通常⼜分为星型模型和雪花模型。 星型模型: 雪花模型: 星型模型和雪花模型的主要区别在于对维度表的拆分,对于雪花模型,维度表的设计更加规范,⼀般符合3NF;⽽星型模型,⼀般采⽤降维 的操作,利⽤冗余来避免模型过于复杂,提⾼易⽤性和分析效率。 雪花、星型模型对⽐: 1、冗余:雪花模型符合业务逻辑设计,采⽤
1、大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。 大数据的4V特点:Volume、Velocity、Variety、Veracity。 2、随着云时代的来临,大数据(Big data)吸引了越来越多的关注。大数据(Big data)通常用来形容一个公司创造的大量非结构化和半结构化数据大数据分析常和云计算联系到一起,用于挖掘各种各样非常有价值的信息。 3、大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域。目前人们谈论最多的是大数据技术和大数据应用。工程和科学问题尚未被重视。大数据工程指大数据的规划建设运营管理的系统工程;大数据科学关注大数据网络发展和运营过程中发现和验证大数据的规律及其与自然和社会活动之间的关系。 4、大数据已经出现,因为我们生活在一个社会中有更多的东西。有46亿全球移动电话用户有1亿美元和20亿人访问互联网。基本上,人们比以往任何时候都与数据或信息交互。 1990年至2005年,全球超过1亿人进入中产阶级,这意味着越来越多的人,谁收益的这笔钱将成为反过来导致更多的识字信息的增长。 5、未来,数据可能成为最大的交易商品。但数据量大并不能算是大数据大数据的特征是数据量大、数据种类多、非标准化数据的价值最大化。因此,大数据的价值是通过数据共享、交叉复用后获取最大的数据价值。在他看来,未来大数据将会如基础设施一样,有数据提供方、管理者、监管者,数据的交叉复用将大数据变成一大产业。据统计,目前大数据所形成的市场规模在51亿美元左右,而到2017年,此数据预计会上涨到530亿美元。 6、在2012年12月8日工信部发布的物联网"十二五"规划上,把信息处理技术作为4项关键技术创新工程之一被提出来,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。 7、国内网络广告投放正从传统的面向群体的营销转向个性化营销,从流量购买转向人群购买。虽然市场大环境不好,但是具备数据挖掘能力的公司却倍受资本青睐。 8、从资本角度来看,什么样的公司有价值,什么样的公司没有价值,从其拥有的数据规模、数据的活性和这家公司能运用、解释数据的能力,就可以看出这家公司的核心竞争力。而这几个能力正是资本关注的点。 9、移动互联网与社交网络兴起将大数据带入新的征程,互联网营销将在行为分析的基础上向个性化时代过渡。应用"大数据"告诉资本投资者,什么是正确的时间,哪些公司是有价值的,这正好切中了目前信息大爆炸、各种各样的思路、想法、做法是否已意义、是否有投资价值的要害。
个人理解大数据时代下BIM中各专业配合与管理 前言:BIM从出生到现在发展多年,一直备受建筑行业各方的关注和追捧,源于其先进的理念和工作方式。而大数据(Big data)也是最近几年由云计算兴起的根据统计学理论推出的新的管理统计服务方式。个人对于二者有所了解,但均处于入门阶段,对于二者的互联互动性有一些个人浅显和不成熟的理解以及其过程,提出来与大家共同分享,若有错漏之处,还望大家多多批评指正。 正文: 建筑信息模型(Building Information Modeling)是以建筑工程项目的各项相关信息数据作为模型的基础,进行建筑模型的建立,通过数字信息仿真模拟建筑物所具有的真实信息。根据美国国家BIM标准(NBIMS)对BIM的定义,定义由三部分组成: 1.BIM是一个设施(建设项目)物理和功能特性的数字表达; 2.BIM是一个共享的知识资源,是一个分享有关这个设施的信息,为该设施从建设到拆除的全生命周期中的所有决策提供可靠依据的过程; 3.在项目的不同阶段,不同利益相关方通过在BIM中插入、提取、更新和修改信息,以支持和反映其各自职责的协同作业。 大数据(big data),又称巨量资料,指的是所涉及的资料量规模巨大,需要通过撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯 BIM-大数据-管理全文共6页,当前为第1页。 而BIM描述其中第一条的"功能性的数字表达"和第2条的"共享的知识资源"与大数据的处理概念又不谋而合。当同处于BIM与大数据时代的时候,让我们不得不联想一下二者的共同工作以及管理方式。 BIM-大数据-管理全文共6页,当前为第1页。 一、建立在大数据基础上的BIM (功能性数字表达) 二者能互为应用,互相融合首先就是从本质方面的。 首先,我个人认为BIM模型不是我们通常意义理解上的单纯的一个模型,数据信息是BIM模型的基础,BIM模型实质是由各种各样的数据信息堆砌而成的仿真模拟建筑物 因此按照以前的以二维为基准来建立三维模型的概念来进行BIM模型的建立是错误的,至少是没有完全理解到BIM精髓的方式。BIM模型作为信息数据集合的表现,在我个人的理解里面,BIM模型与大数据分析应该是相辅相成的。 例如一个大型的公共建筑,需要考虑内部功能与人流分析等,这些按照以前的理念与我们结构布置主要受力构件有影响,但是似乎影响有限。但是如果我们未来需要作为一个更加精准,更加专业的设计公司。这是需要精细化考虑的,也是和一般设计公司需要做出不一样的地方。如果没有BIM,没有大数据,那么这一切将只是一个概念。而现在我们正处于一个两个要素都蓬勃发展的时代,完成这一些只需要有合适良好的管理运作模式就可以达到。 BIM-大数据-管理全文共6页,当前为第2页。 一座尽可能多的商铺都有大量人流的商场,意味着业主能卖出更多的高价价格,结构梁柱的优化意味着提升顾客购物的舒适性。从人流数据信息的入手通过人体工程学收集大数据在计算机模拟后,形成最利于顾客的结构体系。也许无法模拟出每一次观众的活动,但大数定理在人群中永远有效。通过从各处采集到的商业广场的人类活动数据,在被导入计算机模型后,通过分析顾客进出场习惯、人群聚集习惯,设计师们可以不断修正模型。而在这之前的国内,一切都只用经验,系数等一系列概念性的理论,硬套在二维图纸上,至于是否达到了预期效果,是不能直观的反应出来的。 BIM-大数据-管理全文共6页,当前为第2页。 而这类似的结合应用还仅仅只是二者结合应用的一方面,日照参数,节能环保参数已经地震力,风荷载等各种各样的大数据类型的参数引入,完全可以再加入更多统计后的大数据,完善满足我们需要验证的各种情况,来达到我们的仿真模拟建筑的目的。 二、BIM模型结果数据共享为大数据的资源(共享的知识资源) BIM模型的最低层最明晰的一个优点就是直观,所见即所得。以前的工程施工图出去以后,由于各方面因素,不论是甲方,设计,施工包括后期业主运营,都或多或少的牵涉到修改。而修改单即使存档,也不能立即反映到图纸上面。如果以后有类似需要参考的项目,也许会在同样的地方做出同样的结构,出同样的变更单。 而在BIM模型中,当无论各方有修改的变更等,都能第一时间反映到模型中。那么当工程结束,这个模型就是一个经过了实践检验的模型,是一个真正的仿真模拟建筑。而这个模型里面的各种参数,都是作为一堆经过检验的数据上传作为大数据的共享资源,将作为基础数据为后续的工程服务。 三、不同的工作方式必然需要不同的管理方式 BIM-大数据-管理全文共6页,当前为第3页。 BIM与大数据互为应用,互为资源的方式看起来是很美好,很有前景的,带是不同的工作方式必然要有不同的管理模式,甚至经营模式,还是以前国内的那种管理模式来进行BIM大数据时代的管理,必然是很难达到满意成果的。 B
大数据 大机遇 作者:暂无 来源:《农产品市场周刊》 2014年第48期 中国农业科学院农业信息研究所所长 许世卫 大数据,主要是用来描述和定义信息爆炸时代产生的具有潜在价值的、海量的、活的数据大数据是信息技术发展到一定阶段之后的成果。目前,大数据正在加速向农业领域拓展。大数据的兴起,为农业监测统计工作带来了发展的重要机遇,我们应抓住机遇,推动数据治理的现代化,以数据获取、数据分析、数据应用为重点,加速推动农业监测统计工作发展。 大数据为农业监测统计变革带来了重要的发展机遇。 海量数据为全景展示农业,深入认识农业发展特点和变化规律提供了重要机遇。1948 年香农始创信息论,为物理学的质量、能量补充了第三个基本量——信息量,并正式使用了信息量的单位bit(比特),1字节(Byte)=8 位(bit),从此以后,信息像长度、宽度等一样变得可以度量。近年来,信息技术突飞猛进,农业气象数据、资源环境数据、生物信息数据、作物生长监测数据以及农业统计数据量剧增,农业的产量形成、产品流通以及产品消费过程因为数据的涌现而变得更加立体、透明和直观,人们对农业演化进程、发展规律、变化趋势的认识也更加透彻、深刻和全面。 以大数据技术为代表的新技术为变革传统数据生产方式,拓展数据获取渠道,完善监测统计体系提供了重要契机。我国农业监测统计以农业综合统计、成本和物价为主要内容,形成了全面调查、抽样调查为主体,必要的重点调查、遥感技术等为补充的经济信息资源监测统计体系。尽管如此,统计数据与实时、在线、并发的互联网数据、农业物联网数据相比,仍显滞后。随着大数据技术的发展,利用和发掘农业物联网和互联网数据,进一步拓宽监测渠道和完善统计体系将变成可能。 大数据时代的来临,为解决农业监测统计工作中的诸多难题提供了难得历史机遇。中国是农业大国,生产区域广阔、产品种类繁多、市场类型多样、产业链条细长,不缺乏可收集的数据,但是缺乏精确和系统化收集数据的手段和收集数据的意识。目前的数据要么是缺失,有待收集;要么是数据准确性差,经不起推敲和检验;要么是部门分割,难以公开共享。大数据技术在数据时效性、标准性、匹配性和共享性等方面带来了技术创新,将有助于破解传统统计工作的诸多难题。 当前,形成数据治理现代化是开展农业监测统计工作的紧迫任务。中国是一个当之无愧的农业大国、人口大国、互联网大国,但中国却不是一个收集数据、使用数据、共享数据的大国。农业监测统计工作是我国现代农业建设的软实力,抓好数据工作是统计部门的首要任务。大数据时代来临,各个主体应该充分发挥数据驱动创新作用,推动数据治理的现代化。首先,树立尊重事实、强调精准、推崇理性的数据文化,改变过去统计工作中漠视精准、凡事差不多的现象,提高数据获取的执行力和自觉性;其次,坚持数治为原则健全现代农业治理制度体系。加强数据立法,规范用数体制,在采集规程、报送程序、开放应用规则等方面建立健全制度体系,形成良好的数据环境;第三,完善数据治理机制,驱动数据创新。以数据为核心,加强网络的互联互通,资源的共建共享,工作的协作协同;最后,以数据推动资源优化配置,通过数据,促进农业生产效率高效化,资源利用集约化,科学管理智能化。 大数据-大机遇全文共2页,当前为第1页。 数据获取、数据分析、数据应用是农业监测统计的三大核心工作。搜集数据、使用数据已经成为各国竞争的一个新的制高点。数据资源已经成为一种国家新型战略资源,未来数据能力将成为现代农业发展的新型力量和推动国家进步的新型竞争力。当前农业监测统计工作要加强顶层设计和统筹谋划,以数据获取、数据分析、数据应用为核心开展工作,推动现代农业快速发展。 大数据-大机遇全文共2页,当前为第1页。 首先,创新采集技术,拓展采集渠道。一方面,利用大数据技术改进和改革全面统计和抽样调查,取缔繁杂的条条框框设置和不必要的审核约束,变传统报表统计为移动采集、便携获取。对现有统计数据进行清洗、整理、标准化,形成符合现代农业发展的农业基准数据。另一方面,充分利用互联网数据(特别是电子商务数据)、物联网数据、遥感数据等拓展数据获取渠道,完善农业统计数据体系。 其次,构建大型模型系统,增强分析智能化。数据的处理和分析是大数据时代的核心能力。当前数据分析挖掘的速度已经远远落后于数据产生的速度。传统的数据分析处理方法已经无法满足海量数据分析的需求,未来大数据处理分析将变得更加智能。针对农业监测统计数据构建大型智能模型系统,是未来解决海量条件下数据分析的关键。以互联网技术为基础,开展适合现代农业监测统计的智能算法和模型研究,将成为未来数据分析的重要方向。 第三,搭建大数据服务平台,促进产品化应用。应用数据发现价值、指导实践,是农业大数据的最终目标。如农产品市场,信息不对称一直是影响农产品市场稳定的重要因素。农民面对纷繁的市场

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值