大数据阶段项目之项目介绍

                           

项目介绍

一、zebra概述

  1. 如图所示,电信运营商的用户通过连接到互联网中的各种网络设备访问一个网站时,其访问信息会通过基站在网络中传递,基站可以收集所有用户的访问日志数据
  2. zebra是对电信运营商收集的用户上网数据进行分析的一个应用程序。通过分析得到的结果可以展现不同小区的上网详情
  3. 注:zebra本意为斑马,命名类似hadoop的方式,并无特殊含义

二、整体分析

  1. 该日志中的每一条数据都包含了77个字段,字段说明如下:

序号

字段名

类型

长度

说明

0

reporttime

string

14

从文件名截取获取,动态填上

1

 Length

unsigned int

2

用于指示整个XDR所占用字节数

2

City

byte

2

城市区号,如010代表北京

3

Interface

unsigned int

1

接口类型,16进制编码

1. Uu

2. X2

3. UE_MR

4. Cell_MR

5. S1-MME

6. S6a

7. S11

8. S10

9. SGs

10. S5/S8

11. S1-U

12. Gn

13~20 预留

21. IDC出口

22.省网出口

23.省网网间出口

24.骨干网网间出口

4

xDR ID

unsigned int

16

DPI设备内唯一的xDR编号,16进制编码。一个会话生成一个xDR ID。

S1-U接口中,一个会话在同一个小区中的传输过程生成一个xDR ID,如该会话切换到新的小区,则生成新的XDR ID及会话记录。

对于超长会话设立时间阈值,超过阈值则该条记录结束,重新生成另一条会话记录并生成新的XDR ID,阈值默认为5分钟。

5

RAT

unsigned int

1

RAT类型,16进制编码

1. UTRAN              

2. GERAN        

3. WLAN         

4. GAN          

5. HSPA Evolution

6. EUTRAN

6

IMSI

byte

8

用户IMSI(TBCD编码),通过Gn/S11接口信令获取

7

IMEI

byte

8

终端IMEI(TBCD编码),通过Gn/S11接口信令获取

8

MSISDN

byte

16

用户号码(TBCD编码),通过Gn/S11接口信令获取

9

Machine IP Add type

Unsigned int

1

设备IP地址类型,

0x01:IPv4

0x02:IPv6

10

SGW/GGSN IP Add

byte

4(16)

对于Gn口,填写GGSN的用户面IP地址;对于S1-U口,填写SGW的用户面IP地址

Ipv4:4字节;

Ipv6:16字节。

11

eNB/SGSN IP Add

byte

4(16)

对于Gn口,填写SGSN的用户面IP地址;对于S1-U口,填写eNB用户面IP地址:

Ipv4:4字节;

Ipv6:16字节

12

SGW/GGSN Port

byte

2

对于Gn口,填写GGSN的端口;对于S1-U口,填写SGW端口

13

eNB/SGSN Port

byte

2

对于Gn口,填写SGSN的端口;对于S1-U口,填写eNB端口

14

eNB/SGSN GTP-TEID

byte

4

对于Gn口,填写该业务对应承载的SGSN侧GTP-TEID;对于S1-U口,填写该业务对应承载的eNB侧GTP-TEID

15

SGW/GGSN GTP-TEID

unsigned byte

4

对于Gn口,填写该业务对应承载的GGSN侧GTP-TEID;对于S1-U口,填写该业务对应承载的SGW侧GTP-TEID

16

TAC

byte

2

TAC

17

Cell ID

Byte

4

UE所在小区的ECI

18

APN

String

32

APN

19

App Type Code

byte

1

业务类型编码,参见附录D XDR类型编码定义

20

Procedure Start Time

dateTime

8

TCP/UDP流开始时间,UTC时间),从1970/1/1 00:00:00开始到当前的毫秒数。

21

Procedure End Time

dateTime

8

TCP/UDP流结束时间,UTC时间),从1970/1/1 00:00:00开始到当前的毫秒数。

22

Protocol Type

byte

2

协议类型

集团规定的协议识别分类,参加《XXXX数据流量DPI识别能力规范》中的“DPI设备协议识别能力要求”

23

App Type

byte

2

应用大类

集团规定的18种应用大类,参见《XXXX数据流量DPI识别能力规范》

24

App Sub-type

byte

2

应用小类

根据集团定义的识别规则识别出来的小类, 参见《XXXX数据流量DPI识别能力规范》。

集团未定义的各厂家根据自己的DPI进行识别

25

App Content

byte

1

应用小类的内容细分,如微信文本、微信语音等。

0.心跳,1.文本,2.图片,3.音频,4.视频,5.其他文件

如无则填全F。

26

App Status

byte

1

标识业务是否成功

0:业务成功

1:业务失败

2:业务未识别

27

USER_IPv4

byte

4

终端用户的IPv4地址,如无则填全F

28

USER_IPv6

byte

16

终端用户的IPv6地址,如无则填全F

29

User Port

byte

2

用户的四层端口号

30

L4 protocal

byte

1

L4协议类型:

0:TCP

1:UDP

31

App Server IP_IPv4

byte

4

访问服务器的IPv4地址,如无则填全F

32

App Server IP_IPv6

byte

16

访问服务器的IPv6地址,如无则填全F

33

App Server Port

byte

2

访问的服务器的端口

34

UL Data

byte

4

上行流量

单位:字节

对于场景一,定义为从内层IP包头开始计算的数据包大小总和;

对于其他场景,定义为从链路层封装开始计算的数据包大小总和。

35

DL Data

byte

4

下行流量

单位:字节

 

对于场景一,定义为从内层IP包头开始计算的数据包大小总和;

对于其他场景,定义为从链路层封装开始计算的数据包大小总和。

36

UL IP Packet

byte

4

上行IP包数

内层IP包的个数

37

DL IP Packet

byte

4

下行IP包数

内层IP包的个数

38

上行TCP乱序报文数

byte

4

上行TCP乱序报文数

L4协议非TCP传输时,此字段填0

39

下行TCP乱序报文数

byte

4

下行TCP乱序报文数

非TCP传输时,此字段填0

40

上行TCP重传报文数

byte

4

上行TCP重传报文数

非TCP传输时,此字段填0

41

下行TCP重传报文数

byte

4

下行TCP重传报文数

非TCP传输时,此字段填0

42

TCP建链响应时延(ms)

byte

4

TCP建链响应时延(ms)

非TCP传输时,此字段填0

43

TCP建链确认时延(ms)

byte

4

TCP建链确认时延(ms)

非TCP传输时,此字段填0

44

UL_IP_FRAG_PACKETS

byte

4

以内层IP包的分片为准

45

DL_IP_FRAG_PACKETS

byte

4

以内层IP包的分片为准

46

TCP建链成功到第一条事务请求的时延(ms)

byte

4

TCP建链成功到第一条事务请求的时延(ms)

没有事务的时候可以不填写,此时填0

47

第一条事务请求到其第一个响应包时延(ms)

byte

4

第一条事务请求到其第一个响应包时延(ms)

没有事务的时候可以不填写,此时填0

48

窗口大小

byte

4

窗口大小,TCP 建链协商后的窗口

非TCP传输时,此字段填0

49

MSS大小

byte

4

MSS尺寸,TCP层的最大分段大小

非TCP传输时,此字段填0

50

TCP建链尝试次数

byte

1

TCP SYN的次数,一次TCP流多次SYN的数值

非TCP传输时,此字段填0

51

TCP连接状态指示

byte

1

TCP连接状态指示

0:成功;

1:失败

52

会话是否结束标志

byte

1

1:结束

2:未结束

53

HTTP版本

byte

1

0x01----HTTP0.9

0x02----HTTP1.0

0x03----HTTP1.1

0x04----HTTP2.0

0x05----WAP1.0

0x06----WAP1.1

0x07----WAP1.2

54

事务类型

byte

2

HTTP/WAP2.0的事务类型,遵照HTTP/WAP1.x协议上的编码

55

HTTP/WAP事务状态

byte

2

HTTP/WAP2.0层的响应码,参见附录A 状态编码

56

第一个HTTP响应包时延(MS)

byte

4

第一个HTTP响应包相对于第一个HTTP请求包(如get命令)的时延

57

最后一个HTTP内容包的时延(MS)

byte

4

最后一个HTTP内容包相对于第一个HTTP请求包(如get命令)的时延

58

最后一个ACK确认包的时延(ms)

byte

4

最后一个HTTP包的ACK相对于第一个HTTP请求包(如get命令)的时延,如果无ACK,则按照最后一个数据包计算

59

HOST

char

64

访问域名

60

URI

char

512

访问的URI,对于超过512字节的URI进行截短

61

X-Online-Host

char

128

针对wap代理上网的私有头部字段,对于cmnet上网该字段与HOST字段相同

62

User-Agent

char

256

终端向访问网站提供的终端信息,包括IMEI、浏览器类型等

63

HTTP_content_type

char

128

HTTP的内容是文字还是图片、视频、应用等,具体编码参考附录A

64

refer_URI

char

128

参考URI

65

Cookie

char

256

协议中Cookie字段

66

Content-Length

byte

4

协议中Content-Length字段

67

目标行为

byte

1

目标行为,0:会话是用户主动点击的页面;1:站点目标而产生的页面。

68

Wtp中断类型

byte

1

WTP层的失败类型

69

wtp中断原因

byte

1

WTP层失败原因

70

title

char

256

网站名称,在上网内容里解析

71

key word

char

256

网站关键字,在上网内容里解析

72

业务行为标识

byte

1

0-业务登陆                                                                                                                                                                                                                   1-页面访问

2-刷新

3-未识别;

判断规则详见《业务KPI定义(20130821)》

73

业务完成标识

byte

1

0-业务成功

1-业务失败

2-未识别

成功的判断规则:状态码<400

74

业务时延(ms)

byte

4

登陆、访问响应或者刷新时延,具体指标描述参见《业务KPI定义(20130821)》

75

浏览工具

byte

1

详见附录F“浏览工具”,未识别的数据用0填充,该字段不能为空

76

门户应用集合

byte

1

详见附录G“门户应用集合”,未识别的数据用0填充,该字段不能为空

77

未知列

 

 

例:1:894/1102??这样字段

2.如图所示,运营商基站收集的用户上网日志中一行有很多字段,可能是用户某次短信发送,也可能是用户某次的通话,也可能是http访问或者app内通讯(比如:QQ好友之间聊天)等等。因为本次只针对所有的http访问进行分析,所以提取不同小区的上网详情所要处理的字段(清洗表):

序号

字段名

类型

长度

说明

16

TAC

byte

2

TAC

17

Cell ID

Byte

4

UE所在小区的ECI

19

App Type Code

byte

1

业务类型编码,参见附录D XDR类型编码定义

20

Procedure Start Time

dateTime

8

TCP/UDP流开始时间,UTC时间),从1970/1/1 00:00:00开始到当前的毫秒数。

21

Procedure End Time

dateTime

8

TCP/UDP流结束时间,UTC时间),从1970/1/1 00:00:00开始到当前的毫秒数。

23

App Type

byte

2

应用大类

集团规定的18种应用大类,参见《XXXX数据流量DPI识别能力规范》

24

App Sub-type

byte

2

应用小类

根据集团定义的识别规则识别出来的小类, 参见《XXXX数据流量DPI识别能力规范》。

集团未定义的各厂家根据自己的DPI进行识别

27

USER_IPv4

byte

4

终端用户的IPv4地址,如无则填全F

29

User Port

byte

2

用户的四层端口号

31

App Server IP_IPv4

byte

4

访问服务器的IPv4地址,如无则填全F

33

App Server Port

byte

2

访问的服务器的端口

34

UL Data

byte

4

上行流量

单位:字节

对于场景一,定义为从内层IP包头开始计算的数据包大小总和;

对于其他场景,定义为从链路层封装开始计算的数据包大小总和。

35

DL Data

byte

4

下行流量

单位:字节

 

对于场景一,定义为从内层IP包头开始计算的数据包大小总和;

对于其他场景,定义为从链路层封装开始计算的数据包大小总和。

40

上行TCP重传报文数

byte

4

上行TCP重传报文数

非TCP传输时,此字段填0

41

下行TCP重传报文数

byte

4

下行TCP重传报文数

非TCP传输时,此字段填0

55

HTTP/WAP事务状态

byte

2

HTTP/WAP2.0层的响应码,参见附录A 状态编码

59

HOST

char

64

访问域名

62

User-Agent

char

256

终端向访问网站提供的终端信息,包括IMEI、浏览器类型等

63

HTTP_content_type

char

128

HTTP的内容是文字还是图片、视频、应用等,具体编码参考附录A

68

Wtp中断类型

byte

1

WTP层的失败类型

72

业务行为标识

byte

1

0-业务登陆                                                                                                                                                                                                                   1-页面访问

2-刷新

3-未识别;

判断规则详见《业务KPI定义(20130821)》

73

业务完成标识

byte

1

0-业务成功

1-业务失败

2-未识别

成功的判断规则:状态码<400

其中,应用大类字段如下:

序号

业务类型

业务说明

1

即时通信

互联网消息即时收发业务,如:QQ、飞信等

2

阅读

向用户提供在线或离线阅读服务的业务,如:移动手机阅读、熊猫阅读等

3

微博

微博业务,如:移动微博、新浪微博等

4

导航

提供浏览、查询、导航等功能的电子地图类业务,如:谷歌地图、高德导航等

5

视频

向用户提供音视频内容的直播、分享和下载服务的网站和应用(不包括传统意义上基于P2P技术的视频业务),如:优酷、手机电视等

6

音乐

提供音乐在线欣赏和下载服务的网站和应用,如:咪咕音乐、QQ音乐等

7

应用商店

提供应用程序、音乐、图书等内容浏览、下载及购买服务的业务,如:Mobile Market、AppStore等

8

游戏

基于客户端或者网页的游戏业务:QQ游戏、开心农场等

9

支付

电子商务类业务,如:手机支付、支付宝、网银等

10

动漫

提供动漫在线欣赏和下载服务的网站和应用,如:手机动漫、爱看动漫等

11

邮箱

电子邮箱业务,如:139邮箱、QQ邮箱等

12

P2P业务

基于P2P技术的资源共享业务,包括下载和视频两部分,前者如:迅雷、eMule等,后者如:迅雷看看、PPLive等

13

VoIP业务

互联网语音通信业务,如:Skype、Uucall等

14

彩信

彩信业务

15

浏览下载

基于HTTP、WAP、FTP等的普通浏览和下载业务

16

财经

金融资讯、股票证劵类业务,如:手机商界、大智慧等

17

安全杀毒

提供网络安全服务的应用,如:360安全卫士、麦咖啡等;以及网络恶意流量,如:病毒、攻击等

18

其他业务

 

DPI设备子业务识别能力要求(部分)

业务类型

子业务

 

 

 

 

序号

子业务名称

优先级

备注

即时通信

1

飞聊

必选

自有业务

 

2

飞信

必选

 

 

3

Gtalk

必选

互联网业务

 

4

MSN

必选

 

 

5

QQ

必选

 

 

6

TM

必选

 

 

7

阿里旺旺

必选

 

 

8

米聊

必选

 

 

9

微信

必选

 

 

10

人人桌面

必选

 

 

11

AOL AIM

可选

 

 

12

Gadu_Gadu

可选

 

 

13

go聊

可选

 

 

14

ICQ

可选

 

 

15

IMVU

可选

 

 

16

Lava-Lava

可选

 

 

17

NetChat

可选

 

 

18

Paltalk

可选

 

 

19

PowWow

可选

 

 

20

TeamSpeak

可选

 

 

21

Trillian

可选

 

 

22

VZOchat

可选

 

 

23

Xfire

可选

 

 

24

百度Hi

可选

 

 

25

都秀

可选

 

 

26

陌陌

可选

 

 

27

天翼Live

可选

 

 

28

翼聊

可选

 

 

29

网易泡泡

可选

 

 

30

新浪UC

可选

 

 

31

新浪UT

可选

 

 

32

雅虎通

可选

 

3.对该字段进行整理,建立事实表F_HTTP_APP_HOST:

序号

字段

字段类型

描述

0

reportTime

datetime

小时 时间片 default 'YYYY-MM-DD HH24:MI:SS'

1

appType

int

应用大类

2

appSubtype

int

应用小类

3

userIP

varchar(20)

用户IP

4

userPort

int

用户端口

5

appServerIP

varchar(20)

服务器IP

6

appServerPort

int

服务器端口

7

host

varchar(50)

域名

8

cellid

varchar(20)

小区ID

9

attempts

int(20)

尝试次数

10

accepts

int(20)

接受次数

11

trafficUL

int(20)

上行流量

12

trafficDL

int(20)

下行流量

13

retranUL

int(20)

重传上行报文数

14

retranDL

int(20)

重传下行报文数

15

failCount

int(20)

延时失败次数

16

transDelay

int(20)

传输时延*

4.可以利用该事实表来从不同维度进行分析:

  1. D_H_HTTP_APPTYPE(应用欢迎度)

序号

字段

字段类型

描述

0

hourid

datetime

小时时间片

1

appType

int

应用大类

2

appSubtype

int

应用小类

3

attempts

int(20)

尝试次数

4

accepts

int(20)

接受次数

5

succRatio

int(20)

尝试成功率

6

trafficUL

int(20)

上行流量

7

trafficDL

int(20)

下行流量

8

totalTraffic

int(20)

总流量

9

retranUL

int(20)

重传上行报文数

10

retranDL

int(20)

重传下行报文数

11

retranTraffic

int(20)

重传报文数据

12

failCount

int(20)

延时失败次数

13

transDelay

int(20)

传输时延

  1. D_H_HTTP_HOST(各网站的表现)

序号

字段

字段类型

描述

0

hourid

datetime

小时时间片

1

host

varchar(50)

域名

2

appServerIP

varchar(20)

服务器IP

3

attempts

int(20)

尝试次数

4

accepts

int(20)

接受次数

5

succRatio

int(20)

尝试成功率

6

trafficUL

int(20)

上行流量

7

trafficDL

int(20)

下行流量

8

totalTraffic

int(20)

总流量

9

retranUL

int(20)

重传上行报文数

10

retranDL

int(20)

重传下行报文数

11

retranTraffic

int(20)

重传报文数据

12

failCount

int(20)

延时失败次数

13

transDelay

int(20)

传输时延

  1. D_H_HTTP_CELLID(小区HTTP上网能力)

序号

字段

字段类型

描述

0

hourid

datetime

小时时间片

1

cellid

varchar

小区ID

2

attempts

int(20)

尝试次数

3

accepts

int(20)

接受次数

4

succRatio

int(20)

尝试成功率

5

trafficUL

int(20)

上行流量

6

trafficDL

int(20)

下行流量

7

totalTraffic

int(20)

总流量

8

retranUL

int(20)

重传上行报文数

9

retranDL

int(20)

重传下行报文数

10

retranTraffic

int(20)

重传报文数据

11

failCount

int(20)

延时失败次数

12

transDelay

int(20)

传输时延

  1. D_H_HTTP_CELLID_HOST(小区上网喜好)

序号

字段

字段类型

描述

0

hourid

datetime

小时时间片

1

cellid

varchar

小区ID

2

host

varchar(50)

域名

3

attempts

int(20)

尝试次数

4

accepts

int(20)

接受次数

5

succRatio

int(20)

尝试成功率

6

trafficUL

int(20)

上行流量

7

trafficDL

int(20)

下行流量

8

totalTraffic

int(20)

总流量

9

retranUL

int(20)

重传上行报文数

10

retranDL

int(20)

重传下行报文数

11

retranTraffic

int(20)

重传报文数据

12

failCount

int(20)

延时失败次数

13

transDelay

int(20)

传输时延

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
大数据平台建设方案 (项目需求与技术方案) 一、项目背景 "十三五"期间,随着我国现代信息技术的蓬勃发展,信息化建设模式发生根本性转变,一 场以云计算、大数据、物联网、移动应用等技术为核心的"新 IT"浪潮风起云涌,信息化应用进入一个"新常态"。***(某政府部门)为积极应对"互联 网+"和大数据时代的机遇和挑战,适应全省经济社会发展与改革要求,大数据平台应运 而生。 大数据平台整合省社会经济发展资源,打造集数据采集、数据处理、监测管理、预 测预警、应急指挥、可视化平台于一体的大数据平台,以信息化提升数据化管理与服务 能力,及时准确掌握社会经济发展情况,做到"用数据说话、用数据管理、用数据决策、 用数据创新",牢牢把握社会经济发展主动权和话语权。 二、建设目标 大数据平台是顺应目前信息化技术水平发展、服务政府职能改革的架构平台。它的 主要目标是强化经济运行监测分析,实现企业信用社会化监督,建立规范化共建共享投 资项目管理体系,推进政务数据共享和业务协同,为决策提供及时、准确、可靠的信息 依据,提高政务工作的前瞻性和针对性,加大宏观调控力度,促进经济持续健康发展。 制定统一信息资源管理规范,拓宽数据获取渠道,整合业务信息系统数据、企业单位数 据和互联网抓取数据,构建汇聚式一体化数据库,为平台打下坚实稳固的数据基础。 梳理各相关系统数据资源的关联性,编制数据资源目录,建立信息资源交换管理标准体 系,在业务可行性的基础上,实现数据信息共享,推进信息公开,建立跨部门跨领域经 济形势分析制度。 在大数据分析监测基础上,为政府把握经济发展趋势、预见经济发展潜在问题、辅助经 济决策提供基础支撑。 三、建设原则 大数据平台以信息资源整合为重点,以大数据应用为核心,坚持"统筹规划、分步实 施,整合资源、协同共享,突出重点、注重实效,深化应用、创新驱动"的原则,全面提 升信息化建设水平,促进全省经济持续健康发展。 1、统筹规划、分步实施。结合我省经济发展与改革领域实际需求,明确总体目标和阶段 性任务,科学规划建设项目。先期完成大数据平台的整体架构建设,后期分步完成业务 系统的整合及相互间数据共享问题。 2、整合资源、协同共享。对信息资源统一梳理,建立经济发展与改革信息标准资源库和 数据规范,逐步消灭"信息孤岛",加快推进数据资源整合,建设共享共用的大数据中心 ,实现业务协同。 3、突出重点、注重实效。以用户为中心,以需求为导向,以服务为目的,突出重点,注 重实效,加强平台可用性和易用性。 4、深化应用、创新驱动。深入了解用户需求,密切跟踪信息技术发展趋势,不断深化应 用、拓展新技术在应用中的广度和深度,促进跨界融合,丰富管理和服务手段。 四、建设方案 为了保证项目的顺利进行和建设目标的可行性,我们采取如下几种建设方案。 1、数据采集方案。 我们统一信息资源标准规范,建立多维度数据库,拓宽数据来源,通过不同的 方式汇聚数据,增强分析力度,提高监测预警的准确性和时效性。 1. 预留接口,支持其它系统各种数据的上传导入处理。将现存有关经济运行业务系统中 的历史数据和时效数据,通过上传数据文件至服务器、分析提取有效数据导入服务 器数据库等方式采集起来,在本平台上复用。 2. 支持外接数据的上传导入处理。可以将企业单位或定点监测机构的数据通过同样的方 式采集起来,在本平台上复用。 3. 支持非结构化数据,即搜索引擎数据、社交媒体数据、地理空间数据和音视频数据等 等。 2、数据分析方案。 大数据之大并不是难点所在,其真正难以对付的挑战来自于数据类型多样、要 求及时响应和数据的不确定性,而我们所面临的也正是如此。 我们采用批量数据处理系统,借助于深度学习、知识计算和可视化等大数据分 析技术,通过对数据的批量处理挖掘其中的价值来支持决策和发现新的洞察。 3、业务整合方案。 在对社会发展相关业务子系统充分调研基础上,结合项目需求,可对其进行整 合或嵌入处理(本方案整合公共信用信息服务平台、投资项目信息管理平台等)。 1. 整合处理。将原有数据通过上传或导入方式进行采集,原有功能模块整合到本平台中 ,合二为一,完美的将数据汇聚起来。缺点是耗时较长。 2. 嵌入处理。以单点登录的方式将原有系统链接嵌入到本平台中,作为子系统单独存在 。缺点在于数据共享难以实现。 五、建设内容 1、宏观经济监测预测及可视化平台 政府信息化的最终目标是提高政府的决策水平,其中经济决策是核心内容。为了 提高宏观调控决策水平,我们必须从依靠传统统计数据向依靠互联网非统计数据转变 ,从监测预测宏观经济总量向监测预测宏观经济先行指标转变,从中长期监测预测向 实时监测预测转变。 宏观经济监测预测及可视化平台围绕网络搜索、社交媒体、电子商务、终端定位 和业务交易等五个方面全面整合互联网相关数据资源,建
大数据平台项目建议书全文共6页,当前为第1页。大数据平台项目建议书全文共6页,当前为第1页。大数据平台项目建议书 大数据平台项目建议书全文共6页,当前为第1页。 大数据平台项目建议书全文共6页,当前为第1页。 大数据平台项目建议书 建议书是个人或者单位有关方面为了开展某项工作,完成某项任务或进行某种活动而倡议大家一起做什么事情,或提出合理化的意见,建议时使用的一种文体,也叫意见书。以下是小编为大家收集的建议书写作格式,请大家阅读。 大数据项目建议书格式(1) 定义及作用 定义:项目建议书又称立项报告,是由项目投资方向其主管部门上报的文件,从宏观上论述项目设立的必要性和可能性,建议书内容包括项目的战略、市场和销售、规模、选址、物料供应、工艺、组织和定员、投资、效益、风险等,把项目投资的设想变为概略的投资建议。目前广泛应用于项目的国家立项审批工作中。 项目建议书通常是在项目早期使用,由于项目条件还不够成熟,仅有规划意见书,对项目的具体建设方案还不明晰,市政、环保、交通等专业咨询意见尚未办理。项目建议书主要论证项目建设的必要性,建设方案和投资估算也比较粗,投资误差为±30%左右。对于大中型项目,有的工艺技术复杂,涉及面广,协调量大的项目,还要编制预可行性研究报告,作为项目建议书的主要附件之一。 作用:项目建议书是项目发展周期的初始阶段,是国家选择项目的依据,也是可行性研究的依据。 项目建议书是项目发展周期的初始阶段基本情况的汇总,可以减少项目选择的盲目性,是国家选择和审批项目的依据,也是制作可行性研究报告的依据。涉及利用外资的项目,只有在项目建议书批准后,才可以开展对外工作。 项目建议书批准后,可以着手成立相关项目法人。民营企业(私人投资)项目一般不再需要编写项目建议书,只有在土地一级开发等少数领域,由于行政审批机关习惯沿袭老的审批模式,有时还要求项目方编写项目建议书。外资项目目前主要采用核准方式,项目方委托大数据平台项目建议书全文共6页,当前为第2页。大数据平台项目建议书全文共6页,当前为第2页。智博睿等有资格的机构编写项目建议书即可。 大数据平台项目建议书全文共6页,当前为第2页。 大数据平台项目建议书全文共6页,当前为第2页。 项目建议书和可行性研究报告的区别 项目建议书和可行性研究是项目前期两个不同的阶段,其内容、深度、作用都是不一样的。 项目建议书往往是在项目早期,由于项目条件还不够成熟,仅有规划意见书,对项目的具体建设方案还不明晰,市政、环保、交通等专业咨询意见尚未办理。项目建议书主要论证项目建设的必要性,建设方案和投资估算也比较粗,投资误差为±30%左右。 一般地说,项目建议书的批复是可行性研究的依据之一。此外,在可行性研究阶段项目至少有方案设计,市政、交通和环境等专业咨询意见也必不可少了。对于房地产项目,一般还要有详规或修建性详规的批复。此阶段投资估算要求较细,原则上误差在±10%;相应地,融资方案也要详细,每年的建设投资要落到实处,有银行贷款的项目,要有银行出具的资信证明。 很多项目在报立项时,条件已比较成熟,土地、规划、环评、专业咨询意见等基本具备,特别是项目资金来源完全是项目法人自筹,没有财政资金并且不享受什么特殊政策,这类项目常常是项目建议书(代可行性研究报告),两个阶段合为一阶段。 以上基本是在传统的项目审批制环境下,项目建议书和可行性研究的大致要求和区别。 随着我国投资体制的改革深入,特别是随着《国务院关于投资体制改革的决定》的出台和落实,除政府投资项目延续上述审批要求外,非政府投资类项目一律取消审批制,改为核准制和备案制。像房地产等非政府投资的经营类项目基本上都属于备案制之列,房地产开发商只需依法办理环境保护、土地使用、资源利用、安全生产、城市规划等许可手续和减免税确认手续,项目建议书和可行性研究报告可以合并,甚至不是必经流程。房地产开发商按照属地原则向地方政府投资主管部门(一般是当地发改委)进行项目备案即可。 项目建议书的审批权限 目前,项目建议书要按现行的管理体制、隶属关系,分级审批。大数据平台项目建议书全文共6页,当前为第3页。大数据平台项目建议书全文共6页,当前为第3页。原则上,按隶属关系,经主管部门提出意见,再由主管部门上报,或与综合部门联合上报,或分别上报。 大数据平台项目建议书全文共6页,当前为第3页。 大数据平台项目建议书全文共6页,当前为第3页。 1、大中型基本建设项目、限额以上更新改造项目 委托有资格的工程咨询、设计单位初评后,经省、自治区、直辖市、计划单列市发改委及行业归口主管部门初审后,报国家发改委审批,其中特大型项目(总投资4亿元以上的交通、能源、原材料项目,2亿元以上的`其他项目),由国家发改委审核后报国务院审批。总投资在限额以上的外商投资项目项目建议书分别由省发改委、
银行业一直是一个数据驱动的行业,数据也一直是银行信息化的主题词。银行的信息化进程先后经历过业务电子化、数据集中化、管理模型化等阶段,如今随着大数据技术的飞速发展,银行信息化也进入了新的阶段大数据时代。 目前,国内银行都积累了海量的金融数据,包括各类结构化、半结构化、非结构化数据,数据量巨大,存储方式多样。但是这些海量数据还没得到充分利用,显得价值含量较低。只有经过合适的预处理、模型设计、分析挖掘后,才能发现隐藏在其中的潜在规律。而应用大数据分析技术,可以从海量的、不完全一致的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识。银行可以利用这些信息和知识来提升金融业务的服务效率和管理水平,银行的关键业务也能从中获得巨大收益。 银行在大数据技术应用方面具有天然优势:一方面,银行在业务开展过程中积累了大量有价值数据,这些数据在运用大数据技术挖掘和分析之后,将产生巨大的商业价值;另一方面,银行在资金、设备、人才、技术上都具有极大的便利条件,有能力采用大数据的最新技术。建立“金融大数据服务平台”, 可以通过对金融数据的挖掘、分析,创造数据增值价值,提供针对银行的精准营销、统一广告发布、业务体验优化、客户综合管理、风险控制等多种金融服务。
大数据平台建设方案 (项目需求与技术方案) 一、项目背景 "十三五"期间,随着我国现代信息技术的蓬勃发展,信息化建设模式发生根本性转变,一 场以云计算、大数据、物联网、移动应用等技术为核心的"新 IT"浪潮风起云涌,信息化应用进入一个"新常态"。***(某政府部门)为积极应对"互联 网+"和大数据时代的机遇和挑战,适应全省经济社会发展与改革要求,大数据平台应运 而生。 大数据平台整合省社会经济发展资源,打造集数据采集、数据处理、监测管理、预 测预警、应急指挥、可视化平台于一体的大数据平台,以信息化提升数据化管理与服务 能力,及时准确掌握社会经济发展情况,做到"用数据说话、用数据管理、用数据决策、 用数据创新",牢牢把握社会经济发展主动权和话语权。 二、建设目标 大数据平台是顺应目前信息化技术水平发展、服务政府职能改革的架构平台.它的主 要目标是强化经济运行监测分析,实现企业信用社会化监督,建立规范化共建共享投资 项目管理体系,推进政务数据共享和业务协同,为决策提供及时、准确、可靠的信息依据 ,提高政务工作的前瞻性和针对性,加大宏观调控力度,促进经济持续健康发展。 制定统一信息资源管理规范,拓宽数据获取渠道,整合业务信息系统数据、企业单位数 据和互联网抓取数据,构建汇聚式一体化数据库,为平台打下坚实稳固的数据基础。 梳理各相关系统数据资源的关联性,编制数据资源目录,建立信息资源交换管理标准体系 ,在业务可行性的基础上,实现数据信息共享,推进信息公开,建立跨部门跨领域经济形 势分析制度。 在大数据分析监测基础上,为政府把握经济发展趋势、预见经济发展潜在问题、辅助经 济决策提供基础支撑. 三、建设原则 大数据平台以信息资源整合为重点,以大数据应用为核心,坚持"统筹规划、分步实 施,整合资源、协同共享,突出重点、注重实效,深化应用、创新驱动"的原则,全面提 升信息化建设水平,促进全省经济持续健康发展。 1、统筹规划、分步实施。结合我省经济发展与改革领域实际需求,明确总体目标和阶段 性任务,科学规划建设项目。先期完成大数据平台的整体架构建设,后期分步完成业务 系统的整合及相互间数据共享问题。 2、整合资源、协同共享。对信息资源统一梳理,建立经济发展与改革信息标准资源库和 数据规范,逐步消灭"信息孤岛",加快推进数据资源整合,建设共享共用的大数据中心, 实现业务协同。 3、突出重点、注重实效。以用户为中心,以需求为导向,以服务为目的,突出重点,注 重实效,加强平台可用性和易用性。 4、深化应用、创新驱动。深入了解用户需求,密切跟踪信息技术发展趋势,不断深化应 用、拓展新技术在应用中的广度和深度,促进跨界融合,丰富管理和服务手段。 四、建设方案 为了保证项目的顺利进行和建设目标的可行性,我们采取如下几种建设方案。 1、数据采集方案。 我们统一信息资源标准规范,建立多维度数据库,拓宽数据来源,通过不同的 方式汇聚数据,增强分析力度,提高监测预警的准确性和时效性. 1. 预留接口,支持其它系统各种数据的上传导入处理。将现存有关经济运行业务系统中 的历史数据和时效数据,通过上传数据文件至服务器、分析提取有效数据导入服务 器数据库等方式采集起来,在本平台上复用。 2. 支持外接数据的上传导入处理。可以将企业单位或定点监测机构的数据通过同样的方 式采集起来,在本平台上复用. 3. 支持非结构化数据,即搜索引擎数据、社交媒体数据、地理空间数据和音视频数据等等 。 2、数据分析方案. 大数据之大并不是难点所在,其真正难以对付的挑战来自于数据类型多样、要求 及时响应和数据的不确定性,而我们所面临的也正是如此。 我们采用批量数据处理系统,借助于深度学习、知识计算和可视化等大数据分 析技术,通过对数据的批量处理挖掘其中的价值来支持决策和发现新的洞察。 3、业务整合方案. 在对社会发展相关业务子系统充分调研基础上,结合项目需求,可对其进行整 合或嵌入处理(本方案整合公共信用信息服务平台、投资项目信息管理平台等)。 1. 整合处理。将原有数据通过上传或导入方式进行采集,原有功能模块整合到本平台中, 合二为一,完美的将数据汇聚起来。缺点是耗时较长。 2. 嵌入处理。以单点登录的方式将原有系统链接嵌入到本平台中,作为子系统单独存在 。缺点在于数据共享难以实现。 五、建设内容 1、宏观经济监测预测及可视化平台 政府信息化的最终目标是提高政府的决策水平,其中经济决策是核心内容。为了 提高宏观调控决策水平,我们必须从依靠传统统计数据向依靠互联网非统计数据转变 ,从监测预测宏观经济总量向监测预测宏观经济先行指标转变,从中长期监测预测向实 时监测预测转变。 宏观经济监测预测及可视化平台围绕网络搜索、社交媒体、电子商务、终端定位 和业务交易等五个方面全面整合互联网相关数据资源,建
大数据项目的流程通常包括以下几个阶段:需求分析、数据收集、数据清洗与处理、数据存储与管理、数据分析与建模、结果展示与应用。 首先,需求分析阶段是确定项目目标和需求的重要步骤。在这个阶段中,团队需要与相关利益相关方进行沟通,明确他们的期望和需求,了解项目的具体目标和可行性。 接着,数据收集阶段是收集数据的重要步骤。数据可以从不同的来源获取,包括传感器、社交媒体、市场调研等。在此阶段,团队需要采用合适的方法和工具来收集数据,确保数据的准确性和完整性。 然后,数据清洗与处理阶段是将收集到的数据进行清洗和处理的步骤。这涉及到删除无效数据、填充缺失值、处理异常值等数据清洗操作,并进行数据转换和集成等处理操作,以便为后续的分析和建模做准备。 随后,数据存储与管理阶段是将数据存储在适当的存储系统中,并进行管理和维护的步骤。团队需要选择合适的数据库或分布式存储系统进行数据存储,并确保数据的安全性和可靠性。 接下来,数据分析与建模阶段是对收集到的数据进行分析和建模的步骤。在这个阶段中,团队需要选择合适的算法和工具对数据进行分析和挖掘,以提取有用的信息和模式,并建立相应的模型用于预测和决策。 最后,结果展示与应用阶段是将分析和建模的结果进行展示和应用的步骤。团队需要以可视化的形式展现分析结果,使利益相关方能够理解和应用这些结果,以支持决策和业务改进。 总之,大数据项目的流程包括需求分析、数据收集、数据清洗与处理、数据存储与管理、数据分析与建模、结果展示与应用等环节,通过这些环节的有序进行,实现对大数据的全面利用和价值挖掘。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值