自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 未名企鹅极客 | Kylin Cube构建优化(上)

Kylin Cube构建优化联机分析处理OLAP是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。多维数据组织OLAP的使用一般有两种背景条件:Ø 查询需求一般是统计结果,为数据经过聚合函数计算得到的统计值,并非直接面向原始数据,访问原始记录的频率也不那么高。Ø 聚合是按照维度进行的,一般业务需求可控,维度聚合有限,不会随着数据膨胀而迅速增长。Apache Kylin介绍Apache Kylin(以下简称Kylin)是一个开源的、分布式的分析型数

2021-01-25 13:11:13 166

原创 未名企鹅极客 | 软件单元测试的基本原则

计算机世界里软件产品通常是由模块组合而成的,模块又可以分成诸多子模块,子模块还可以继续往下拆分,拆分到最终的子模块是由不可再分的程序单元组成。对于这些程序单元的测试,即称为单元测试。本期未名企鹅极客栏目,研发工程师给大家分享的是一些单元测试的基本原则。单元测试的粒度要根据实际情况判定,可能是类、方法等,在面向对象编程中,通常认为最小的单元就是方法。在很多人看来,快速完成业务功能开发才是王道,如果开发工程师说需要额外的时间来写单元测试,并因此延长项目工期,估计有些项目经理就按捺不住了。其实单元测试是一

2020-12-28 20:54:05 274

原创 未名企鹅极客 | 大数据测试与效率提升

每当提到到大数据的测试,测试人员都会感到很头疼。需求多、人力有限、数据量大…那么如何在人员有限的情况下既提升测试效率,又能保证质量呢?未名企鹅在为医药行业提供海量数据服务时,我们的测试工程师总结了一些不错的思路和方法,一起来看看。大数据测试与效率提升测试前,我们有必要了解下数据处理的一般流程:数据采集 ——》清洗(标准化)——》可视化查询与分析目前针对流向数据的采集、清洗和终端通(未名企鹅的医药行业终端数据分析系统)等工作的测试主要包括功能质量管理、性能质量管理、数据质量管理及实时监控等方面。

2020-12-28 20:51:45 241

原创 未名企鹅极客 | 如何通过前端测试提高交付质量

如何通过前端测试提高交付质量01前端测试的意义平时工作中写的公共组件和工具函数,随着业务复杂度越来越高需要添加修改一些功能,每次修改代码都要测试好几遍保证以前的功能不受影响。而且由于是公共组件,每次修改还得让其他小伙伴更新组件,很是影响开发效率,所以一定要写测试,对自己负责,也是对他人负责。02前端测试介绍单元测试(unit测试)是把代码看成是一个个的通用组件或函数,从而实现每一个单元的单独测试。测试内容主要是组件内每一个逻辑的返回结果是不是和期望值一样。端到端测试(e2e测试)e2e测试.

2020-12-28 20:50:06 239

原创 未名企鹅极客 | 基于Kubernetes的容器云实践

基于Kubernetes的容器云实践01为什么选择 Kubernetes1.1 背景以往我们部署服务采用主流的做法,就是创建一批云主机(比如:亚马逊的 AWS EC2、阿里云 ECS),然后通过 Ansible、Puppet 这类部署工具在机器上部署应用。但所有功能都集成在一个包里面,而且模块之间相互耦合,随着应用的规模变得越来越庞大,逻辑也越来越复杂,迭代更新也越来越频繁,这时我们就逐渐发现了一些问题,比如:1)性价比低,资源利用率低有时候用户只是希望运行一些简单的程序而已,比如跑一个小进.

2020-12-28 20:39:38 182 1

原创 未名企鹅极客 | 医药流向的数据仓库建模

关于医药流向数据,在实际处理的过程当中涉及到数据仓库的建模。未名企鹅的研发工程师Lee在此提供一些建模的思路和心得。首先我们来熟悉一些概念和定义解释。01什么是数据建模?数据建模,就是设计数据的结构以及数据之间关系的过程。业务系统是按照业务流程方便操作的方式来进行数据建模的。业务系统一般都采用关系型数据库进行数据的存储,考虑到数据的一致性以及减少数据的冗余,通常采用实体关系模型进行数据的建模。而数据仓库则使用与业务数据库完全不同的建模方式来组织数据,这种方式被称为“维度模型”。维度模型是完全面向数

2020-12-28 20:35:12 591

原创 未名企鹅极客 | 海量数据处理中的分布式任务队列

1背景随着未名企鹅业务的不断扩展,在进行流向数据清洗,数据处理的时候,免不了对资源的大量消耗。当有多个处理任务同时进行的时候,就会给服务带来巨大压力,这时就需要能够控制同时执行的任务数,可以监控任务状态,并且能够方便水平扩展,而解决这一问题的关键就是分布式任务队列。2什么是任务队列队列(Queue),是一种线性的数据结构,它的特点“先进先出(FIFO)”,即元素只能队尾进入,从队首离开,先进入队列的元素会先离开队伍。可以将队列想象成银行柜台的排队机制一样,在前面排队的人可以先办理业务,在最后排队

2020-12-28 20:30:01 111

原创 未名企鹅极客 | 海量数据处理中的分布式任务队列

1背景随着未名企鹅业务的不断扩展,在进行流向数据清洗,数据处理的时候,免不了对资源的大量消耗。当有多个处理任务同时进行的时候,就会给服务带来巨大压力,这时就需要能够控制同时执行的任务数,可以监控任务状态,并且能够方便水平扩展,而解决这一问题的关键就是分布式任务队列。2什么是任务队列队列(Queue),是一种线性的数据结构,它的特点“先进先出(FIFO)”,即元素只能队尾进入,从队首离开,先进入队列的元素会先离开队伍。可以将队列想象成银行柜台的排队机制一样,在前面排队的人可以先办理业务,在最后排队

2020-12-25 22:15:01 138

原创 未名企鹅极客 | 医药行业数据处理产品化过程中的三要素(下篇)

前言流向数据作为药企营销管理的核心,在提高盈利水平、决策生产上有着重要的地位。在“新基建”的大背景下,数据准确性,匹配高效性,信息及时性这三大特性也成为行业竞争中的重要指标。承接上文,完整的流向交付需要依赖清洗匹配系统强大的匹配能力以及行业库系统准确严格的准入机制。但在此之前,一套标准的数据采集流程是必不可少的。数据采集系统作为数据处理业务的最上游系统,肩负着数据收集、检查、传递的职责,在此过程中,信息的及时性尤为重要。本文将为大家分享未名企鹅数据采集系统是如何做到实时无误的。1多渠道定时数据采集

2020-12-25 22:00:19 164

原创 未名企鹅极客 | 医药行业数据处理产品化过程中的三要素(上篇)

前言流向数据作为药企营销管理的核心,在提高盈利水平、决策生产上有着重要的地位。在“新基建”的大背景下,数据准确性,匹配高效性,信息及时性这三大特性也成为行业竞争中的重要指标。本文主要分享未名企鹅在行业库系统和清洗匹配系统中如何做到准确、高效。1行业库:准确性行业库,也叫标准库。是指在医药行业范围内对所有具备医药销售资格机构的基础数据进行管理的数据库产品。在其具备数据存储、校验、去重能力的同时,也为后续清洗匹配系统提供标准数据查询、同步更新等高效处理能力。行业库数据来源对于医药行业主数据,为保证数

2020-12-25 21:46:47 174

原创 未名企鹅极客 | 人机图灵测试中数字图像处理方法研究

1背景CAPTCHA的英文全称为Completely Automated Public Turing Test to Tell Computers and Humans Apart,译为“全自动区分计算机和人类的图灵测试”。测试手段多种多样,在图像领域用于测试的数字图像,从最初简单的黑白像素字符演变为包括多种颜色、噪声干扰、变形字体、旋转字体、以及实体识别、目标物标记与滑动操作等多种模式。2处理过程图像处理作为预处理过程要完成区域定位、矫正分割,并依靠连通域分析、仿射变换、二值化处理、投影分析等.

2020-12-25 21:38:29 95

原创 未名企鹅极客 | 人机图灵测试中数字图像处理方法研究

1背景CAPTCHA的英文全称为Completely Automated Public Turing Test to Tell Computers and Humans Apart,译为“全自动区分计算机和人类的图灵测试”。测试手段多种多样,在图像领域用于测试的数字图像,从最初简单的黑白像素字符演变为包括多种颜色、噪声干扰、变形字体、旋转字体、以及实体识别、目标物标记与滑动操作等多种模式。2处理过程图像处理作为预处理过程要完成区域定位、矫正分割,并依靠连通域分析、仿射变换、二值化处理、投影分析等.

2020-12-25 21:26:42 151

原创 未名企鹅极客 | 基于行为录制的接口自动化测试实践

基于行为录制的接口自动化测试实践01背景接口测试主要用于检测外部系统与系统之间以及内部各个子系统之间的交互点。测试的重点是要检查数据的交换,传递和控制管理过程,以及系统间的相互逻辑依赖关系等。图片在分层测试的“金字塔”模型中,接口测试属于第二层服务集成测试范畴。相比UI层(主要是WEB或APP)自动化测试而言,接口自动化测试收益更大,且容易实现,维护成本低,有着更高的投入产出比,是每个公司开展自动化测试的首选。为了提升公司整体项目的质量,接口自动化测试迫在眉睫。当前市面上存在的接口测试工具已经.

2020-12-25 21:23:10 148

原创 未名企鹅极客 | 基于规则智能识别的数据匹配服务

主数据管理对于医药工业来讲是重中之重,然而在实际管理中总是被杂乱不堪的数据折磨,已有的主数据也无法完成很好的匹配、补充。未名企鹅的数据匹配服务很好的帮助解决这些问题。本期极客栏目,邀请到未名企鹅的研发总监Clark,从需要数据匹配的原因、数据转换的规则、数据匹配规则的智能识别等几方面深入的介绍了数据匹配服务。01业务背景数据应用分析的基础是治理好企业所存储的各种脏数据,使它们能为分析所使用。药企现有系统收集存储的第一手数据多为脏数据,很多不准或者不全。这里面的主要原因是:同一件事物,如经销商、零

2020-12-25 21:20:26 290

原创 未名企鹅极客 | 软件单元测试的基本原则

计算机世界里软件产品通常是由模块组合而成的,模块又可以分成诸多子模块,子模块还可以继续往下拆分,拆分到最终的子模块是由不可再分的程序单元组成。对于这些程序单元的测试,即称为单元测试。本期未名企鹅极客栏目,研发工程师给大家分享的是一些单元测试的基本原则。单元测试的粒度要根据实际情况判定,可能是类、方法等,在面向对象编程中,通常认为最小的单元就是方法。在很多人看来,快速完成业务功能开发才是王道,如果开发工程师说需要额外的时间来写单元测试,并因此延长项目工期,估计有些项目经理就按捺不住了。其实单元测试是一

2020-12-24 21:04:49 597

原创 未名企鹅极客 | 医药数据管理中的短文本高效匹配技术

大量行业数据、渠道流向数据在清洗的过程中,面临着诸多极大耗费人力的问题。在数据来源多样且格式不统一的情况下,人工匹配曾让很多信息员闻之色变。即使在人工智能和机器学习的时代下,由于各种原因导致的匹配误差,带来了名称缺失、重复等问题依然在影响数据展现质量。本期极客栏目,未名企鹅的高级架构师Joseph对于医药数据管理中的短文本高效匹配技术,给出了很多实用的建议。NLP短文本匹配(中文组织机构名称)01需求分析业务需要对大量医疗机构相关的短文本进行匹配,如“济南市明水眼科医院股份有限公司” 与 “济南

2020-12-22 21:20:44 306 1

原创 未名企鹅极客 | 医药流向终端名称精准匹配技术

流向终端匹配任务提供面向标准行业库的映射能力,需要处理大量不规范的终端名称,其中包含商业公司特定的中英文简称编码、省略连锁总部信息的连锁门店、包含特殊字符的终端名称等等。如何在任务处理阶段清除无效信息并提取有效的判定信息,通过特定搜索策略寻找到语义匹配的目标终端?这一期极客我们请到的是未名企鹅的高级工程师Bob,来谈一谈未名企鹅所采用的医药流向终端名称精准匹配技术。医药流向终端名称精准匹配技术1流向终端名称匹配系统简介匹配系统承担流向终端的自动搜索匹配功能,主要分为:1、 前置清洗作用:清除

2020-12-22 21:17:51 355

原创 未名企鹅极客 | 医药渠道流向数据与用户画像技术的应用

医改政策不断落地的背景下,药企面临销售、市场之困惑,终端药店成为药企的必争之地。连接制药企业与零售药店的“关键点”,是采用先进的互联网技术+大数据分析技术,从而实现药企的数据驱动变革。本期极客我们邀请到来自未名企鹅北京研发中心的研发总监Tony,探讨对如何透过多维度标签构成终端用户画像的一些思考。医药渠道流向数据与用户画像技术的应用1流向数据分析之困惑药企制药行业药品流向数据(销售、库存、采购)是企业的重要数字资产之一,是做数据分析核心数据,也是企业决策和管控的重要数字依据,那么做好药品流向数据

2020-12-22 21:09:29 621

原创 ​未名企鹅极客 | 流向处理新技术

未名企鹅做为医药产业互联网和大数据解决方案专家,在帮助企业客户处理流向数据的过程不可避免的要面对如何处理大量的数据问题。虽然说数据处理一个老话题,但是时代在变化,技术在进化,解决的问题思路也需要与时俱进,在处理数据的过程中,我们的技术团队也在不停的思考和实践,更好的发挥出技术优势来解决问题。以下内容来自我们的高级架构师Joseph及其团队在这个过程中的一些实践和思考。传统关系数据库升级到分析型数据库1传统关系数据库的瓶颈数据是所有业务处理的基本对象,数据的处理能力会受多方面的限制。其中数据库就是

2020-12-22 21:06:16 115

原创 未名企鹅极客 | 流向处理新技术

技术创新,永远是企业进步和行业发展的内驱力!在不断的思考和应用的过程中,未名企鹅努力透过科技的力量来助力传统行业的发展。未名企鹅决定开启新的极客栏目,很高兴有机会跟大家分享我们的科技观点。今天我们邀请到的是未名企鹅的系统架构师Lee,来谈谈一个比较新的技术分布流处理架构Flink在流向处理中是如何应用的。分布式计算框架Flink在流向处理中的应用01什么是分布式计算分布式计算框架,与所有分布式系统一样,都为了解决单机的局限性问题,分布式计算框架可以将一个大的计算任务或者说数据的处理任务分发给多

2020-12-22 20:57:33 230

原创 企鹅智慧 Penguin M.I.N.D.

未名企鹅是医药产业互联网和大数据解决方案专家。致力于以海量医药行业数据及AI算法模型为核心的大数据产品及医药互联网解决方案,帮助客户通过数据驱动、营销闭环助力企业发展,实现精益成长。企鹅智慧 Penguin M.I.N.D.是未名企鹅服务理念和科技实力的精华凝结,它代表着从数据、信息、洞察一路整合升级利用知识的能力,通过这套智慧的沉淀可以敏锐的洞察市场机会、迅速提炼业务发展关键点。MIND分别代表着:可度量的效果,深入的洞察,精准的导航,差异化定位。MIND超越传统的数据、信息服务,带给客户有行动力的

2020-12-22 20:54:01 169

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除