自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(72)
  • 收藏
  • 关注

原创 怎么编写数据管理制度

政府大数据项目中,标准规范建设是其中重要的一项内容,通过制度、标准实现各系统、各环节的整合。管理制度包括办法、细则等形式,规定了数据管理的适用范围、具体领域、分工职责、遵循原则、任务分工等。总结2022年,一个比较大的收获是从0到1编写了三个数据管理制度,其中印发了一个管理办法,两个管理细则还在评审当中。从前期接到任务时的怵头,到后期可以相对顺利地完成初稿编写,中间经历了简单堆素材、一遍遍修改、反复推敲找感觉等过程,一路走来,体会到了久违的成就感,“路虽远行则将至,事虽难做则必成”。

2023-01-19 10:10:19 308

原创 【excel小技巧】对多个sheet页的相同列进行计数

需要对一个excel文件中多个sheet页中的相同列进行计数,可以使用count(或counta等)函数。函数公式如下:

2020-09-30 14:05:26 3860

原创 指标管理的需求要点

最近梳理了指标管理在政府行业的需求点,包括了指标的定义和指标的查询,但不包括指标的申请、上线等其它部分的内容,完整的脑图如下:在这次梳理当中,需要支持多套指标类目树是一个新的发现,之前虽然也意识到用一套类目树对指标进行分类有些困难,但没有深入思考。就像图中的例子,宜居城市和智慧城市的指标体系,是会用到一些相同的基础指标,从而形成不同用途的评价体系,因此指标管理系统在实际使用当中,应该先有一套技...

2020-04-03 14:44:32 921

原创 数据平台与数据中台

最近数据中台被越来越多地提到,很多的技术方案也是以数据中台进行对外宣讲,包括我自己,也在经常对外讲数据中台的方案,那么,数据中台与数据平台的区别是什么呢?这个问题不时会被问到,归纳起来,我个人认为有以下几点:数据中台更加强调对应用和业务的支撑。数据中台需要将加工处理后的数据封装为对业务人员更加友好的中间形态,而不仅仅是传统的报表、看板等,比如,标签、画像、推荐、指标等,基于这些“数据组件”,前...

2020-03-21 14:49:21 1833

原创 政府大数据平台标准规范-数据接入

搞政府大数据平台的,标准规范是一个绕不过去的内容,而且政府项目对标准规范貌似都特别看重,这是与做企业项目很大的不同。政府大数据平台的标准规范可以从以下几个方面制订:数据采集,包括结构化、非结构化数据,以及实时、批量数据的接入汇聚;数据治理,包括数据质量、数据清洗融合、数据模型设计等;数据服务,主要是对应用、委办局的数据支撑,包括数据文件、API接口等;数据安全,此处主要是通过数据脱敏、数...

2020-03-15 14:53:43 12171 3

转载 转载:共克时艰,疫情数据分析

发布于知乎上的文章,https://zhuanlan.zhihu.com/p/105203409

2020-02-11 09:32:04 994

原创 政府大数据平台的部门库建设思路

最近项目中正在讨论部门库的定义与建设思路。个人认为部门库是部门自己产生的数据,再加与其它部门数据进行融合加工后生成的数据。从建设路径上来看,可以从以下几个方面考虑:...

2020-01-04 17:12:06 2399

原创 大数据平台要有自己的“能力指标体系”

在建设政务大数据平台的过程中,项目组的注意力往往是汇聚委办局数据、建设基础库、提供数据服务等方面的工作,忽略了归纳总结平台自身的指标,尤其是当项目不包含应用建设的时候,项目成果汇报常常乏善可陈,常常需要经受各级领导的指责批评,质疑大数据平台自身的价值。因此,在政府大数据平台的项目当中,需要花费一定的精力建设大数据平台的“能力指标体系”,围绕平台建设的数据采集、存储计算、数据治理、分析挖掘、数据服务...

2020-01-02 16:17:40 2731 1

原创 政府大数据平台需要有一个强大的数据接入工具

建设政府大数据平台,一个深刻体会是数据汇聚的难度,为了摸清委办局的数据家底,先期会花费大量的精力梳理资源目录,依据三定职责,梳理职责目录、系统目录和库表目录。从资源目录中就会发现,除了各类数据库之外,还有很多的数据是以文件形式存在,包括公文、公告、台账等,若不能将这些数据有效利用,则数据价值就会大打折扣。因此,大数据平台要有一个灵活可配、功能丰富的数据接入系统,既能将各类库表数据采集入库,也能将种...

2019-12-19 13:57:36 1907

原创 基于区块链的政务大数据平台

目前正在思考区块链技术在政务大数据的应用和落地场景,联系到区块链的主要特性,也就是:去中心化(Decentralized):由于使用分布式核算和存储,不存在中心化的硬件或管理机构,任意节点的权利和义务都是均等的,系统中的数据块由整个系统中具有维护功能的节点来共同维护。去信任(Trustless):系统中所有节点之间无需信任也可以进行交易,因为数据库和整个系统的运作是公开透明的,在系统的规则和...

2019-12-17 14:46:46 5129

原创 政府大数据的资源库建设不能等米下锅

做政府大数据项目,基础库的建设是必备的项目,只是基础库的内容一直在变化,各家的理解也不一样,一般会有人口库、法人库、电子证照库、空间地理资源库等。以人口库为例,是按照一数一源原则,将各委办局的人口数据进行融合,为各类应用提供共享共用。不过在资源库建设的过程中,由于各地委办局信息系统既有自建系统,也有垂管系统(市里、省里、部委等),能汇聚的数据情况就有很大差别了。而数据协调的工作往往需要行政推动,不...

2019-12-03 16:18:05 1231 3

原创 政府大数据之数据治理

目前项目正处于接入委办局数据并进行治理的阶段。由于大数据能力支撑平台的特点,其主要是对外部其它应用系统提供能力支撑,包括分析能力、可视化能力、数据服务能力等,而数据治理则主要是将接入的数据进行清洗、转换、融合等处理,正在考虑如何将数据治理的成果为项目甲方介绍清楚,将项目进度以可量化的指标表述出来。以下是我想到的一些点:数据模型。数据建模是数据治理的重要工作,也是数据仓库项目能取得成功的关键。但...

2019-11-19 17:15:17 2317

原创 政府大数据的资源库建设

政府大数据目前的建设都是围绕基础库和主题库展开,其中,基础库包括人口、法人、电子证照、空间地理,主题库有社会信用、城市运行等。但资源库建设的方法、标准、内容等却没有统一的认识,而且多数都是以ETL脚本、数据模型等形式体现,可以写成PPT,但通过软件体现出来的成果不多,对于数据平台之外的各方,基本都是一个黑盒子。这两天我对这个问题进行了一个初步的梳理,感觉以资源目录为切入点,用资源目录为抓手可以将资...

2019-11-14 10:19:52 7418

原创 政府大数据之数据需求管理

做政府大数据平台,委办局数据接入与对外数据提供,这两件事正常来讲应该是先接入,然后再供数,但现实情况往往是互相影响,尤其是在大数据平台建设之初,各类应用倒逼着大数据平台去和委办局协调数据。大数据平台往往面对着几十家委办局、成百上个数据目录,不论是从现有目录中挑选应用需要的数据,还是从数据需求中筛选出需要接入的数据,都离不开对多个excel的反复加工处理,数据接入成了一个烦燥、乏味的活。应该开发一个...

2019-11-13 15:31:22 2311

原创 政府大数据之资源目录管理

最近客户正在按照三定职责梳理职责目录和数据,需要用到大数据平台的资源目录系统,经过几次交流,逐步梳理出一些改进需求。根据我的理解,梳理出资源目录系统的功能架构,将一些需要重点改进的点记录下来。根据相关标准定义,资源目录可以分为部门资源目录、基础资源目录和主题资源目录,从实践中来看,梳理部门的资源目录是大数据平台的切入点,这也是由政府大数据项目的现状和特点所决定的。现阶段政府大数据基本处于信息化...

2019-11-12 15:17:13 15289

原创 对政府大数据的理解

从我开始做政府大数据已经过去八个多月的时间了,由最初的一团乱麻,逐渐开始梳理出一些框架,记录一点个人的想法。政府大数据,面向的对象是省级政府或市(区)级政府机构。概括来讲,政府的职能包括管理和服务,管理的对象包括人、企业、组织机构、城市部件、事件等;服务可以分为权利服务、公共服务、公益服务、市场服务等,服务的对象有人和企业。从管理的角度来看,数据要准确、权威;从服务的角度来看,数据要全面、综合。...

2019-10-30 10:11:21 1592

原创 一站式数据开发工具构思

正在思考在数据项目中,提供一个什么样的开发工具,可以提高数据治理效率,降低ETL门槛,在政府项目中可以让更多的委办局利用云平台完成数据治理的工作。下图是初步构建的一个功能,不同于kettle等ETL工具,这个工具希望能将尽可能多的业务规范、业务概念整合为开发组件,将成熟的范式直接应用到数据清洗与融合的过程中,让数据流程看起来更接近业务视角。另外,考虑到设计的数据流程直接转换为ETL脚本,可能会存在...

2019-09-19 16:22:24 504

原创 批量数据接入系统设计

最近在考虑批量数据接入系统的设计,也就是从外部的数据库、文件等数据源,采集数据后存储到目标的数据库或分布式存储系统中。接入后的数据再经过清洗、融合等处理后,形成基础库和主题库。采集数据源和目标数据源数据源可以分为来源数据和目标库,主要是配置数据的连接参数,也就是数据库的连接参数,文件的获取位置、格式等。该功能重点是尽可能多地适配主流数据库、文件格式等。采集任务采集任务配置了将数据从源数...

2019-09-16 14:14:25 966

原创 投标演示项目准备

这几天投标国家污染源普查项目,要求有一个demo演示系统功能,同时也提供了普查的样例数据,按照演示的要求,准备了一个演示场景,如下:按照要求,演示要涵盖4个方面的内容,由于时间仓促,只导入了工业污染源的4张表的数据进行演示,同时由于样例数据很少,为了演示效果,按照数据格式也造了一些模拟数据,这4个方面的功能分别如下:数据清洗与入库。将工业源数据导入hive数据库,通过清洗工具,为工业企业基...

2019-09-04 10:14:56 1602

原创 业务中台包含什么

今天上午和客户交流业务中台和数据中台。客户是广电行业,打算从增值业务切入,建设业务中台,询问业务中台的架构。由于公司的方向是数据中台,不涉及业务中台,因此会议中对这个问题没有做过多的阐述。会后我仔细考虑了一下,基于BOSS系统的业务中台可以做以下几个方面的内容:基于微服务理念,将BOSS中的业务逻辑封装为微服务,中台提供流程编排能力,以服务能力的形式开放给前台应用,比如,产品订购、支付等;提...

2019-08-21 14:42:44 14116

原创 基于开源产品的机器学习平台

规划了一个基于开源产品h2o的机器学习平台,基于租户模式,可以对委办局提供从构建模型到模型应用全流程的能力支撑。架构图如下:其中,平台基于H2O平台,支持多种数据来源,除了H2O平台的交互式建模界面,也支持Python、R等脚本语言构建模型;平台分类算法模型开发和算法模型应用两大部分,其中,算法模型开发主要是H2O所提供的功能,包括数据导入、训练模型、验证模型等功能,但要在数据分析、数据...

2019-08-13 10:56:24 1868

原创 多租户下的数据治理

近期政府项目正在探讨如何给委办局开放大数据平台的能力,包括存储计算、数据治理、数据挖掘、数据分析等能力,要求平台以租户的形式支撑各项能力开放。其中,数据挖掘、数据分析等能力主要是以接口API、应用使用等方式提供能力,数据治理涉及到了构建模型、数据清洗与融合等多个步骤流程,周末进行了一些思考,总结如下图:在上图中,多租户模式下的数据治理需要在以下几个方面进行加强:公共数据区与租户数据区。将统...

2019-08-12 10:05:15 918

原创 数据产品交付的核心优势

今天去参加项目的初设评审会议,回来的路上和同事闲聊,吐槽公司研发的产品太弱,交付产品总感觉七拼八凑,哪个功能都不能深究。但反过来想,公司这几年也做了不少数据项目,既有银行,也有政府,而且也获得了腾讯的投资,说明外界对公司的实力还是认可的。那么,公司的实力到底体现在哪呢?也许同事的见解不无道理:公司的产品体系虽然不强,但具备了完整交付项目的能力,这是公司的核心价值,也是腾讯投资的原因。就好比盖房...

2019-07-25 14:57:06 1522 1

原创 【数据治理】自定义数据治理规则

数据治理包括数据质量探查、数据清洗、数据脱敏等,这几个动作实际上都是针对表数据的判断或转换,为了增加系统的灵活性和扩展性,可以将其抽象为规则,通过Java Script等形式允许用户自定义扩展,概念图如下:其中,数据质量探查规则:判断字段值是否符合相关规则,包括唯一性、完整性、准确性、一致性、时效性等;数据清洗规则:对数据进行清洗转换处理,它是数据质量探查和数据处理的组合规则,先用探查规...

2019-07-22 16:02:26 2401

原创 机顶盒直播节目推荐算法

最近与某广电运营商交流用户画像与节目推荐,借机学习了在机顶盒上实现节目推荐的算法原理,这个算法是在一篇硕士论文中看到的,将其中关键的部分写下来,权当是自己的学习笔记。由于机顶盒是一个面向家庭所有成员收看电视的设备,仅仅根据播放历史进行推荐,无法准确匹配出当前正在收看电视成员其个人的收视喜好,带来推荐不准确的问题,因此,该算法通过将播放历史与当前时刻播放节目进行综合匹配,生成推荐列表的办法,改进推...

2019-07-18 15:04:27 611

原创 【数据治理】数据清洗原型

构思了一个数据清洗的功能。对于数据清洗的关键是通过数据探查,制订出具体的清洗目标要求。为了简化数据清洗的复杂度,可以将清洗要求归纳为业务人员容易理解的约束,比如,非空、不含空格、唯一等这类简单的规则,也包括一些业务数据的约束,比如,身份证规则等。一、数据清洗主页面:通过各种条件可以找到要清洗的目标表,查看其每个字段的清洗要求。二、增加清洗目标为一个或多个字段添加清洗要求,比如,不能为空、...

2019-06-16 17:43:44 3371

原创 【数据治理】数据质量探查

结合这段时间做数据质量分析的过程,构思了数据质量探查工具的实现思路(下图)。简单来说,这个工具应该是基于对表数据的分析结果,归纳并定义出质量检查规则,这两个过程应该是反复迭代进行。其中,数据探查部分是要实现一个对表数据进行探索式分析的功能,将与质量检查相关的内容内置为分析项,由用户根据字段元数据进行选择分析项目,最后根据分析数据确定是否要纳入质量检查范畴,并设计检查规则;质量规则部分允许用户...

2019-05-28 15:42:54 4141 1

原创 【数据治理】政府项目中的数据治理流程

今天与政府一个部门开会讨论数据治理的需求及问题,感觉到他们对于系统功能的期望比较高,认为通过一些配置就能完成数据质量检查以及数据清洗等工作,从而提出了很多功能需求。但这一方面超出了系统的能力,而且也与实际的实施过程不符。实际过程中,大量的数据质量分析及清洗工作都是人工完成的,系统一般是固化重要的检查规则、问题工单流转、ETL任务管理等方面起作用。为了将这个问题解释清楚,帮助客户理清思路,画了如下的...

2019-05-16 15:55:32 8357 3

原创 【IT化】大数据实施的信息化

最近这几个月一直在项目团队中,体验着大数据实施中的点点滴滴,虽说以前管理数据产品的时候,数据采集、ETL、数据分析都在做,但接触交付型项目还是第一次,包括与合作伙伴、政府部门等的沟通,都是全然不同的感受。抛开具体的流程不说,项目实施过程缺少信息化支撑,大部分工作都是excel之间复制粘贴,导致效率极其低效,这是我最大的体会,也是让我最不能理解的地方。昨天几个同事一起吃饭,中间闲聊的内容让我对这个问...

2019-05-14 14:08:30 439

原创 数据质量工具真的无用吗?

昨天公司几个同事讨论项目中遇到的问题,对于如何应对客户提出的数据清洗智能化的需求,其中一个很资深的同事提到,对于大部分项目,数据质量和数据清洗最终都会成为咨询项目,“工具在其中起到的作用连20%都不到”。他认为,对于技术类的诸如非空、唯一性等质量问题,若能推动业务系统解决,则没有检查的必要,对于解决不了的,则检查也没有意义;对于业务类的检查,则工具也提前定义不出规则,而且规则也不会很多。对于这个同...

2019-05-09 10:40:17 1363

原创 【产品规划】数据质量智能探查

这两天项目正在接入新的数据,包括户籍人口数据、学校数量、医院数量等,上午简单浏览了每个表的结构及数据内容,发现有几个数据与网上公开报道存在冲突,应该是问题数据,比如,北京市出租车公开报道是6.6万辆,但接入表数据显示有20多万辆出租车。其它几个问题也是类似的,与网上公布的数值差异较大。参与了近三个月的政府大数据项目,有几个体会:一是数据汇聚难,汇聚上来的数据质量差。对接上来的各委办局的数据,以...

2019-05-06 16:28:30 894

原创 【学习笔记】zabix监控项概念

近期需要准备一个zabix演示,介绍项目中利用zabix实现的统一监控。原来也接触过一些zabix的项目,不过仅仅是了解一些监控场景下的实现效果,对于其中的概念、机制等没有深入的学习。这次由于项目中实现的监控页面效果不好,再加上了解这个系统的人员离职,为了更多的提炼一些演示点,只能自己查资料进行学习并操作系统认证。下图是我利用类图的形式所总结的zabix核心概念:主机配置模板与主机。zabi...

2019-05-05 13:45:43 1315

原创 非结构化文件分析的三种场景

对pdf(或其它非结构化文件)的分析场景可以归纳为以下几种:全文检索。基于solr或ES搜索引擎组件,对文件内容建立索引,通过关键字对文件进行检索;结构化分析。把pdf文件内容转换为文本,提取内容中的关键属性,比如,标题、来源等,建立表结构模型支持后续的统计分析。下面是项目中所做的一个案例:语义分析。在上面结构化分析的基础上更进一步,对其内容进行分词、词性标注、命名实体识别等处...

2019-04-29 13:58:42 2531

原创 【产品规划】基于元数据生成质量检查规则(系列三)

上一篇文章中,阐述了实现一个智能化数据清洗工具的思路,其中最关键的是自动构建数据质量检查规则。自动生成数据质量检查规则的基本思路如下:构建质量检查规则模板库。根据项目过往经验,分行业、分主题构建数据质量检查规则模板库,比如,创建日期模板库就可以包括日期格式检查、非空约束两个规则;构建元数据的同义词库。利用词典法、机器学习法或人工方法,构建元数据的同义词库,比如,创建、成立、设立等是同义词,后...

2019-04-26 16:29:28 1390

原创 【产品规划】实现一个智能化的数据清洗工具(系列二)

数据清洗是数据分析过程中最基础的工作,也是最累、最繁琐的部分,不像数据挖掘、数据分析看起来那么光鲜,做起来枯燥乏味。当然,这也与数据清洗工具的自动化程度不高,需要人肉去完成大量的ETL开发工作有极大的关系。为了改善这种局面,可以让ETL工程师减少重复性的编码工作,将更多的精力投入到数据分析当中,更加有效地发挥人的聪明才智,提升数据价值。下面是加入了“智能化”元素的数据清洗流程图。构建数据质量...

2019-04-25 16:47:11 1234

原创 【产品规划】数据治理产品的智能化设想(系列一)

上周参与了大数据筑基工程对现有数据平台的对标分析工作,各厂家要分析出自己平台的现状、差距以及要未来要改进的点,从而为筑基工程制定出接下来的行动计划。通过分析,发现公司产品在数据清洗、数据质量以及数据分析方面的覆盖度还是挺好,但在其它诸如统一安全、统一管理、数据共享等领域,则显得有点单薄,当然这也与总体方案对这方面的规划本身很超前也有关系。抛开其它方面不谈,产品在数据质量、数据清洗这两方面的满足程...

2019-04-22 13:36:15 2176

原创 【zabix笔记】折线图展示平均值、最大值与最小值

上周看到zabix显示CPU使用时间指标,利用三条不同颜色的折线叠加显示了平均值、最大值与最小值,以及工作日/非工作日几项信息,非常受启发。在上图中,深绿色的线显示平均值,浅绿色和深粉色的线分别显示最小值和最大值,白色区域为工作时间(工作日),灰色区域为非工作时间。zabix关于该图的解释这种类型的折线图可以应用到很多场景,比如,工单的处理时间(平均处理时间、最长时间、最短时间)、订单价格(...

2019-04-22 11:58:36 2500

原创 开源分布式挖掘平台介绍

由于项目中的机器学习系统集成了一个名为H2O的开源项目,顺便对其进行了学习了解。H2O是一个开源的、分布式的机器学习平台,可以支持深度学习、线性回归、k-means聚类等算法,支持R、Python接口调用,同时也提供界面化的模型训练和验证的交互过程(Flow),通过这个界面可以在不编写代码的情况下完成数据导入、模型训练、模型验证、模型导出等操作。下图是官方的系统架构图:从上图可以看出,平台...

2019-04-16 15:35:53 374

原创 【心得体会】一次系统演示汇报

昨天为市数据资源中心的客户进行了一次系统演示。这次的演示为了解决前几周演示时多人分别演示不同系统、带给客户印象不佳的问题,由我牵头主导对演示流程进行了完善:设定5个场景,每个场景解决一个特定的问题,通过流程把功能串起来,避免由于客户缺乏对系统整体认识,单独演示功能时不能很好理解每个功能的作用;每个场景设计一张PPT,包括场景描述、演示流程、涉及功能等要点,演示前通过PPT讲解要演示的内容,以...

2019-04-12 10:55:03 2205 1

原创 项目型团队的效率问题

这周项目团队接到了一个新任务,利用公司的产品完成对一张数据表的数据接入、数据质量检测、ETL清洗、应用展现等环节的演示,通过演示让客户方对产品有一个直观的认识。项目经理在周一的时候开了一个小会,初步安排了任务分工,包括 数据质量检测的负责人、ETL清洗的负责人、应用展现的负责人。会上大家就少数几个问题进行了讨论,然后就分头行动。由于我刚来不久,想当然地以为都是老手,对于这种小任务可以很容易地搞定。...

2019-03-27 15:20:30 563 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除