数据文字工作者-CSDN博客

原创湖仓一体数据平台架构

什么是湖仓一体？湖仓一体平台架构方案

2022-07-04 21:56:57 5866 1

原创第六篇：元数据管理之“灵魂”三问

元数据管理“灵魂”三问——元数据是什么，有什么用，又该怎么管？

2022-06-26 21:57:21 1382

原创第四篇：数据管理组织-适合自己的才是最好的

欢迎关注金子说数据～今天和大家聊聊数据管理组织这点事，一起看看企业的数据管理组织如何设定，以及如何才能发挥数据管理组织价值

2022-06-14 10:49:20 2934

原创第三篇：DAMA数据管理知识体系

DAMA数据管理知识体系是国际数据管理协会组织专家对30多年数据管理领域知识和实践的总结，是一部综合了数据管理方方面面具有权威性的基础工具书，最新版为2017年出版的《DAMA-DMBOK: Data Management Body ofKnowledge (2nd Edition)》，中文版为《DAMA数据管理知识体系指南（第2版）》。......

2022-06-05 11:58:36 2583 2

原创第二篇：到底什么才是数据资产

到底什么才是数据资产？虽然目前业界已经有了较为统一的定义，即：由个人或企业拥有或者控制的，能够为企业带来未来经济利益的，以物理或电子的方式记录的数据资源。但仁者见仁，智者见智。有人说所有数据都是数据资产，也有人说只有标签或指标才是数据资产，本篇主要跟大家聊聊金子眼中的数据资产。...

2022-06-05 11:53:53 812

原创第一篇：数据领域重点概念澄清

本篇主要对数据平台、数据治理、数据仓库、数据中台几个我们在数据类项目中经常混淆的概念做一个澄清。

2022-06-05 11:33:49 236

原创第一篇：数据领域重点概念澄清

本篇主要对数据平台、数据治理、数据仓库、数据中台几个我们在数据类项目中经常混淆的概念做一个澄清。

2022-06-05 11:03:07 377

数据治理涉及组织体系、标准体系、流程体系、评价体系、技术体系几方面的内容，主要包含：元数据管理、主数据管理、数据标准管理、数据质量管理、数据安全管理等内容。元数据管理元数据管理主要涉及元数据分类、元数据管理成熟度评估、元数据管理系统架构、元数据管理价值四部分内容。其中：元数据分类主要分为技术元数据、业务元数据、管理元数据；元数据管理成熟度评估主要将元数据管理分为初始状态、从属于业务系统、元数据统一存储、元数据集中管理、元数据驱动管理、元数据管理自动化五个阶段；元数据管理系统架构主要涉及元

2021-01-31 19:19:01 1449

原创政务信息系统整合共享实施方案

指导思想坚持“创新、协调、绿色、开放、共享”的发展理念；坚持以人民为中心的发展思想；加快推进政务信息系统整合和政务信息资源共享开放，促进政务信息资源优化配置和政务部门间业务协同，提升政府治理能力和公共服务水平，以最大程度利企便民，让企业群众少跑腿、好办事、不添堵；主要任务（1）开展政务信息系统清理与整合开展政务信息系统自查，包括：信息系统数量、名称、功能、使用范围、使用频率、审批部门、审批时间、经费来源开展信息系统专项审计开展信息系统清理和整合。一方面，对“僵尸”信息系统进行清

2021-01-26 11:14:48 3050

原创元数据管理

元数据管理的核心功能如下：元数据采集：在操作方式上分为自动采集和手动采集两种，自动采集：定义自动的、定时的采集任务。采集任务为自动调度的工作单元，为元数据的采集提供自动化的、周期性的，或指定某个时间触发的机制。支持通过界面来维护任务，如查询、新增、修改、删除，可以配置任务自动执行的时间、状态。手动采集：手动采集是指选择本地文件上传到服务器来手动采集元数据。相对于自动采集，手动采集功能属于手工方式实时采集保存在本地文件中的元数据信息，如保存在excel文件中的元数据。...

2021-01-25 11:21:51 7285 1

原创大数据现阶段发展情况认知

产业链：2017年产业链发展：1. 数据服务平台提供商：直接面对行业客户，向他们提供其所拥有的外部数据（往往本身就拥有海量的2C数据入口，可以源源不断地生产2C数据）的粗加工产品（如用户的标签数据等）；2. 数据解决方案提供商：基本使用用户自身的数据，通过数据处理服务，为行业客户提供某个方向的解决方案；以上两个角色之间基本没有合作、没有交集，很少在市场上直接竞争，原因：1. 市场成熟度：目前行业应...

2018-03-19 13:54:24 1330

原创区块链概念——学习笔记

区块链是比特币的底层技术，它本质上是一种去中心化的分布式账本技术。英国政府在其于2016年年初发布的报告《区块链：分布式账本技术》中指出：“区块链是数据库的一种。它拥有大量的记录，并将这些记录全部存在区块内（而非整理在一页纸或表格中）。每个区块通过使用加密签名，连接到下一个区块。人们可以像使用账本一样使用区块链，可以共享，也可以被拥有适当权限的人查阅。”我国工信部在2016年发布的《中国区

2018-01-05 16:48:27 898

原创 Python 爬去糗事百科内容讲解

参考：http://blog.csdn.net/flyingfishmark/article/details/51251534爬取前我们先看一下我们的目标：1.抓取糗事百科热门段子2.过滤带有图片的段子3.段子的发布人，段子内容，好笑数，评论数# -*- coding: utf-8 -*-import urllib2import re

2017-03-02 12:24:12 737

原创 Python爬虫实战学习地址

http://blog.csdn.net/flyingfishmark/article/category/6194504http://www.cnblogs.com/jixin/p/5121886.htmlhttps://zhuanlan.zhihu.com/p/22390905

2017-03-01 16:09:15 791 1

原创简单的爬去百度贴吧小爬虫讲解

# -*- coding: utf-8 -*-import urllib2, stringdef baidu_tieba(url, begin_page, end_page): for i in range(begin_page, end_page+1): sName = string.zfill(i,5)+'.html'#返回一个六位数字的html文件

2017-03-01 11:31:11 812

原创 python3引urllib2报错：Unresolved import: urllib2

问题描述：python代码：import urllib2 response = urllib2.urlopen('http://www.baidu.com/') html = response.read() print html 报错如下：Traceback (most recent call last): File "", line 1

2017-02-20 11:46:43 5465

转载 Project interpreter not specified(eclipse+pydev)

新建Python工程时，提示如下错误：Project interpreter not specified，（见图一）。开始我以为是插件安装有问题，后来查了蛮久才发现是没有导入Python的开发环境导致的。知道原因了解决就很简单了： 0、当然你的系统必须已经安装了Python的安装环境，这是必须的哦，因为Eclipse仅仅是提供一个IDE而已，并不提供各

2017-02-20 11:19:50 623

原创 linux平台11gR2 grid安装到执行root.sh时报错

[root@racdb1 11.2.0]# sh root.sh Running Oracle 11g root.sh script...The following environment variables are set as: ORACLE_OWNER= grid ORACLE_HOME= /u01/app/grid/11.2.0

2017-02-17 15:22:27 1830

原创 Oracle 11g安装GI CRS-4124 解决方案

在CentOS 6.5 X86_64上安装11.2.0.1 的RAC，在安装grid时执行root.sh 脚本，报错，如下：CRS-4124: Oracle High Availability Services startup failed.CRS-4000: Command Start failed, or completed with errors.ohasd failed to

2017-02-06 14:22:03 1092

原创 ORACLE 11G GRID 安装缺少到libcap.so.1而终止的解决方法

在OEL 6.3上搭建一台11G的RAC测试环境，在最后执行root.sh脚本的时候遇到libcap.so.1: cannot open shared object file: No such file or directory 错误。[root@racdb1 11.2.0]# sh root.sh Running Oracle 11g root.sh script...The

2017-02-06 12:54:28 1785

转载 Spring中spring-data-redis的使用

参考：http://www.aboutyun.com/thread-20755-1-1.html

2017-01-11 12:59:35 839

转载使用Flume+Logstash+Kafka+Spark Streaming进行实时日志处理分析【公安大数据】

http://www.aboutyun.com/forum.php?mod=viewthread&tid=20705公安行业存在数以万计的前后端设备，前端设备包括相机、检测器及感应器，后端设备包括各级中心机房中的服务器、应用服务器、网络设备及机房动力系统，数量巨大、种类繁多的设备给公安内部运维管理带来了巨大挑战。传统通过ICMP/SNMP、Trap/Syslog等工具对设备进行诊断分析

2017-01-11 12:43:09 11335 1

转载日志数据从kafka到hive是如何实现的

http://www.aboutyun.com/forum.php?mod=viewthread&tid=20701背景公司的系统是一个对外提供服务的接口，每一次调用日志都需要保存到hive中，以便后期做数据分析。每天的调用量在亿级，日志数据量100G以上，在量级还没有这么大的时候，采取的办法比较原始：直接通过log4j打印到日志文件，然后通过抽数工具同步到hive中，每天凌晨同步前一

2017-01-11 12:28:39 9162

转载 ELK结合Spark构建高可用架构及监控spark集群

1. ELK 系统是如何进行架构的？2. 为什么ELK 在 Spark 集群中是高可用性构架？3. ELK 可以监控 Spark 集群的哪些性能？4. ELK 可以监控 Spark 集群的哪些作业？解决方案：概述大数据处理技术越来越火,云计算平台也如火如荼,二者犹如 IT 列车的两个车轮,相辅相成,高速发展。如果我们将大数据处理平台比作一个可能会得病

2017-01-11 11:49:37 3451

转载大数据架构师必读：医药企业大数据应用案例

问题导读：1、IT系统信息化平台涉及内容有什么？2、数据集成架构模型包括哪些部分？3、业务系统部署实现功能有什么？4、数据仓库建设应考虑的内容有哪些？5、未来大数据应用如何扩展？随着技术的发展，IT逐渐面临越来越多的挑战，尤其是数据治理方面。而九州通医药集团在IT建设方面不畏艰险，自主研发ERP系统、物流系统，在解决企业自身问题的同时还创新投入商业化，为同行业提

2017-01-11 11:11:47 5632 1

转载大数据从雏形到发展,详述传统数据仓库到大数据平台的转化及大数据的可视化应用

问题导读：1. 为什么要建设大数据平台？2. 大数据平台的业务架构有哪几块？3. 数据可视化的原因是什么？4. 数据可视化的意义在于什么？本文是58同城信息系统部高级经理余中洋对大数据在互联网行业应用的总结。以实际经验讲解了大数据从雏形到发展，以及发展过程中传统数据仓库到大数据平台的转化和大数据的可视化应用。大数据显雏形——发展所有公司在

2016-12-26 11:26:18 1471

转载 SQL on Hadoop性能瓶颈点分析及解决方法总结

0. 概述要正确的优化SQL，必须能快速定位性能瓶颈点，或者说快速找到SQL主要的开销所在。最慢的设备通常是瓶颈点的成因，如文件下载时的瓶颈点可能是网络速度，本地文件复制时的瓶颈点可能在于硬盘性能。为了快速找到SQL的性能瓶颈点，首先需要读者对各种设备的性能数据有一些基本的认识，如千兆网络带宽是1000Mbps，硬盘转速为每分钟7200/10000转等。下图数据

2016-12-26 10:46:57 1549

转载 Oracle Grid Infrastructure架构

Grid Infrastructure包含两个最主要的组件：Clusterware集群软件和ASM存储软件。Clusterware是Oracle的集群解决方案，ASM是Oracle的存储解决方案，这两大方案的数据库共同构成了RAC高可用解决方案。11gR2中的ASM存储管理软件从Database DBMS脱离出来进行单独的部署，并进行了增强和扩展，ASM使用独立的用户和权限进行管理，形成了

2016-12-21 16:11:11 5079

原创 Oracle clusterware

Oracle clusterwareclusterware和RAC的关系：狭义上，RAC指借助“某种集群件”搭建出来的一个“多实例、单数据库”的环境，这里的集群件可以是 Oracle clusterware、Sun cluster等clusterware把分布式主机虚拟成一个计算机，RAC把分布式实例虚拟成一个实例。clusterware向下管理硬件资源，向上为RAC提供服务

2016-12-21 16:05:23 1613

原创 oracle rac和分布式数据库的区别

分布式数据库是多个数据库，而rac只是一个库多个实例；rac事务上没有协调的问题，而分布式数据库由于是多个库需要事务上的协调；分布式数据库数据是分散存储在各个节点，但是设备一般都是廉价的设备，经常出现节点故障，不过对用户来说是透明的；RAC是ORACLE集群，数据是共享存储，只有一份，每个节点都不存放数据。节点可以宕，但是数据不会丢失；分布式数据库支持的节点多，增加节点基本为线性增加；rac支持的

2016-12-21 11:53:38 12954

原创 oracle dblink跨库访问的问题

oracle 的dblink也能跨数据库访问，但是效率方面就差很多，尤其是跨dblink做表连接的时候

2016-12-21 11:13:26 1170

原创 oracle database 11g安装linux系统参数要求

从oracle快速安装指南获得系统配置参数的最小值：

2016-12-20 11:15:41 570

原创 oracle体系结构

实例是运行在计算机内存中的一组进程，这些进程提供对Oracle Database 11g中各个文件的访问

2016-12-19 16:01:00 540

原创 shell脚本将多行合并为一行

文本内容：$cat test.txt0010020030040050060000999需要格式化成：001 002 003 004 005 006 0000999使用paste命令格式化打印，-d指定分隔符，-s表示合并成一行：paste -d" " -s -

2016-12-13 16:52:57 10851

原创 shell 删除指定字符串

sed -e '/abc/d' a.txt // 删除a.txt中含"abc"的行，但不改变a.txt文件本身，操作之后的结果在终端显示sed '/abc/d;/efg/d' a.txt > a.log // 删除含字符串"abc"或“efg"的行，将结果保存到a.log

2016-12-13 16:38:18 5155

原创 shell 脚本截取指定分隔符的第几项

打开/etc/passwd文件取前五行cat /etc/passwd|head -n 5root:x:0:0:root:/root:/bin/bashdaemon:x:1:1:daemon:/usr/sbin:/usr/sbin/nologinbin:x:2:2:bin:/bin:/usr/sbin/nologinsys:x:3:3:sys:/dev:/usr/sbin/nol

2016-12-13 15:59:04 5874

转载 voltdb常用命令以及常用概念和常用方法

https://my.oschina.net/u/2308739/blog/6894271、创建数据库 voltdb create;##注意这个命令是初始化数据库的意思，所以，如果你之前初始化过，再用的话，会将之前文件删除的，回到初始状态。2、关闭数据库 voltadmin shutdown;3、暂停数据库 voltadmin pause #

2016-12-08 17:08:41 4416 1

转载 NewSQL数据库VoltDB特性简介

VoltDB是一个革命性的新型数据库产品，被称作NewSQL数据库。它基于H-Store，号称比当前数据库产品的吞吐量高45倍，同时又具有很高的扩展性。它的特性主要有以下几点：高吞吐、低延迟：通过内存计算，存储过程和串行数据访问实现。可扩展性：自动分区和复制，保证性能和可扩展性。高可用性：同步的多主复制(在VoltDB中叫K-safety)。持久化：数据库快照与命令

2016-12-08 10:53:38 827

原创 java 的JUnit4 中@AfterClass @BeforeClass @after @before的用法

@Before：初始化方法对于每一个测试方法都要执行一次（注意与BeforeClass区别，后者是对于所有方法执行一次）@After：释放资源对于每一个测试方法都要执行一次（注意与AfterClass区别，后者是对于所有方法执行一次）@Test：测试方法，在这里可以测试期望异常和超时时间 @Test(expected=ArithmeticException.class)检查被

2016-12-07 17:50:33 2604

转载 Hadoop-Impala让分区最优化的方法

1.1 Hadoop-Impala十大优化系列之（1）—分区表优化-8个方法让分区最优化impala表分区默认情况下，表中的所有数据文件都位于一个目录中。分区是在加载过程中基于从一个或多个列的值的物理上划分数据的技术，以加快对这些列进行测试的查询。例如，一个school_records表分区在年柱，各有不同的年值一个单独的数据目录，所有这一年的数据是存储在目录中的数据文

2016-12-07 14:58:24 4377

《医学信息决策与支持系统》题库

华为数据之道知识总结.xmind

数据治理知识体系.xmind

基于Elasticsearch2.1.1的JavaAPI基本操作代码示例

空空如也