自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 COLING 2022 | CSL-大规模中文科学文献数据集

COLING 2022 - 大规模中文科学文献数据集 |NLP |中文数据集|中文论文数据

2022-10-01 15:44:36 4458

原创 中文Transformer(BERT,GPT,T5等)预训练模型权重

中文Transformer预训练模型权重最近业余时间把我们去年和今年之前训练的基于开源语料的预训练权重适配到了Huggingface model hub中。用户可以通过Huggingface Transformers项目代码或者Huggingface网站上提供的在线推理接口轻易的使用这些权重。这些权重有如下特点:可复现;我们在huggingface上开源的所有权重,均是使用公开的语料进行训练的,并且我们在huggingface模型权重的readme中给出了详细的训练过程的说明,用户如果有足够的算力可

2021-04-06 16:12:56 5908

原创 译介 | 成为开源社区贡献者之旅

原文链接本文首发于 Jenkins 中文社区作为一名软件工程师,这些年来在我工作过的不同公司里用到过许多开源软件(包括框架、库、工具等)。然而,在此之前我从没有以一名贡献者的身份参与过开源项目。自从我向 Jenkins 提交第一个简单又滑稽的 commit 已经过去六个月(2018 年 9 月)了,我也尝试过作出更多贡献。然而总的来说,向开源项目贡献代码是具有挑战的,特别是像 Je...

2019-05-23 11:48:23 330

原创 中文分词方法

title: “中文分词方法的比较”author: p01son6415词条化分词又叫做词条化(tokenlize),指的是将原始的字符流转换成一个一个词条(token)的过程。词条化属于自然语言处理中预处理的一个步骤,它是分析语义的基础。下面给出一个词条化的例子。在不同的语言中,分词的方法和难点不同。在英语中,词与词之间有空格作为自然分隔符,处理的难点在于大小写代表的不同含义以及符...

2019-05-23 11:36:57 8633

原创 快速使用 BERT 生成词向量:bert-as-service

BERT 模型是一种 NLP 预训练技术,本文不介绍 BERT 的原理,主要关注如何快速上手使用 BERT 模型生成词向量用于下游任务。Google 已经公开了 TensorFlow 版本的预训练模型和代码,可以用于生成词向量,但是还有更简单的方法:直接调用封装好的库 bert-as-service 。使用 bert-as-service 生成词向量bert-as-service 是腾讯...

2019-05-21 20:13:33 53973 74

原创 概率图模型——马尔可夫网络

马尔可夫网络马尔可夫网络(也叫做马尔可夫随机场、概率无向图模型)与贝叶斯网络有相似之处,它也可用于表示随机变量之间的依赖关系。但它又叶斯网络有所不同。一方面它可以表示贝叶斯网络无法表示的一些依赖关系,如循环依赖;另一方面,它不能表示贝叶斯网络能够表示的某些关系,如推导关系。马尔可夫性质马尔可夫性质指的是将一个随机变量状态序列按时间先后顺序展开后,在给定现在状态及所有过去状态情况下,其未来状态...

2019-05-14 21:17:21 5480

原创 概率图模型——贝叶斯网络

贝叶斯网络贝叶斯网络又称为信度网络或信念网络(belief netwroks),是一种基于概率推理的数学模型,其理论基础是贝叶斯公式。定义贝叶斯网络由一个有向无环图和一个条件概率表组成。无环图中的结点表示随机变量,有向边表示条件依赖关系。两个结点没有连接关系表示两个随机变量能够在某些特定的情况下条件独立,而有连接关系表示两个结点在任何情况下都不存在条件独立。条件概率表描述联合分布概率。贝叶...

2019-05-13 16:40:40 4599

原创 隐马尔可夫模型——维特比算法

维特比(Viterbi)算法用于求解 HMM 中的第二个问题,即给定一个观察序列 O=O1O2…OTO = O_1O_2…O_TO=O1​O2​…OT​ 和模型μ=(A,B,π)\mu = \left ( A,B,\pi \right )μ=(A,B,π) ,如何快速有效地选择在一定意义下「最优」的状态序列 Q=q1q2…qtQ = q_1q_2…q_tQ=q1​q2​…qt​...

2019-05-09 12:18:26 668

原创 隐马尔可夫模型——求解估计问题

隐马尔可夫模型(HMM)可以记为一个五元组 μ=(S,K,A,B,π)\mu = \left(S, K, A, B, \pi \right )μ=(S,K,A,B,π) ,其中:S 为状态的集合 StatusSetK 为输出符号的集合(观察值集合 ObservedSet)π\piπ 为初始状态的概率分布 InitStatusA 为转移概率矩阵 TransProbMatri...

2019-05-08 22:53:06 530

原创 译介 | 我们为什么需要 DevSecOps 和制品仓库?

Helen Beal 曾经在一次讨论什么是 DevSecOps 工程师的会议上发言。令她惊讶的是,在与会人员中,许多人都没有将安全机制引入 DevOps。在与人们讨论之后,她将大家的问题总结为三类:安全机制会制造额外的隔阂;组织中的人很难理解 DevOps,因此安全机制可能会造成更多困惑;可能没有为安全机制预留空间。当然,Helen 不同意这些观点。她在技术领域从业近20年,专注于软件开发生命周...

2019-04-28 19:16:11 357

原创 知识图谱中的 Ontology(本体论)

本文的部分图片和内容来自中国科学院自动化研究所刘康老师的课件Ontology(本体论)Ontology 是(特定领域)信息组织的一种形式,是领域知识规范的抽象和描述,是表达、共享、重用知识的方法。Ontology 是知识体系构建的关键技术,知识图谱是一种人工智能技术,它的关键在于让计算机能够处理人类的知识。然而,人类脑海中的知识通常是直觉性的,我们无法将这种直觉性的知识直接输入给计算机,On...

2019-04-24 18:31:52 12046

原创 基于 Netty 的定位数据平台

定位设备数据平台,接收并解析定位数据,可支持多种设备协议。 基于 SpringBoot,Netty 框架。可自定义通信协议支持基站定位和 GPS 定位提供 RESTful 接口Github : location-service移动定位设备移动定位设备一般搭载 GPS 和 GPRS 模块,可以采集定位信息并定时发送到指定到数据平台上。 对于每一台入网设备,都具有唯一的 IMEI (...

2019-04-24 18:29:16 1064

原创 Jenkins REST API 完全手册——上篇

Jenkins 的 REST API 可以从外部调用 Jenkins 实例,一些库例如 jenkins-rest 和 java-client-api 封装了相关 API,可以在 Java 中操作 Jenkins 。本文介绍其中 Job 相关的 API。术语定义名词说明job作业–data–binary在POST请求中提交的二进制数据{optionalFo...

2019-04-24 18:28:51 32074 2

原创 Jenkins REST API 完全手册——下篇

Jenkins REST APIAPI相关说明介绍见Jenkins REST API 完全手册——上篇CrumbIssuerCrumbIssuerApipath: /crumbIssuer/api/xmlcrumbGET http://127.0.0.1:8080/crumbIssuer/api/xml?{key}={value}参数keyvalue...

2019-04-24 18:28:25 7796 1

原创 译介 | AIOps:DevOps 的未来

翻译自 原文DevOps 和云技术正在逼近极限范式转变往往会产生意想不到的后果,这些后果可能需要数年才能被完全消化。云计算就是一个很好的例子。云计算迎来了灵活的基础设施和低资本要求的时代,由于资源只是一个API调用,工程师们无需等待部署。然而,这一切只是开始。敏捷的公司利用云来打破开发和运维之间的隔阂,并采用敏捷方法以缩短开发周期,从而创造战略优势。他们将应用程序生命周期中的工程师团队分工从...

2019-04-24 12:23:59 182

原创 译介 | 什么是 CI/CD?

CI/CD 的出现改变了开发人员和测试人员发布软件的方式。本文是描述这一变化的系列文章第一篇,这些文章将提供各种工具和流程的讲解,以帮助开发人员更好的使用 CI/CD。从最初的 瀑布模型,到后来的 敏捷开发,再到今天的 DevOps,这是现代开发人员构建出色产品的技术路线。随着 DevOps 的兴起,出现了持续集成,持续交付(CI/CD)和持续部署的新方法,而传统的软件开发和交付方式在迅速变得...

2019-04-24 12:19:28 189

原创 Jenkins 如何使用 CrumbIssuer 防御 CSRF 攻击

使用 CrumbIssuer 防御 CSRF 攻击1. CSRF简介CSRF(Cross-site request forgery)跨站请求伪造,通过伪装成受信任用户的请求来利用受信任的网站。攻击通过在授权用户访问的页面中包含链接或者脚本的方式工作。例如:用户Bob可能正在浏览聊天论坛(网站B),而同时攻击者Alice也论坛中,并且刚刚发布了一个含有Bob银行链接(网站A)的图片消息。假如这...

2019-03-13 14:00:54 4126

原创 在 IntelliJ IDEA 中配置和使用 AutoValue

AutoValue 是 Google 的一个开源库,可以用来简化 Java 开发中的一些繁琐重复劳动,例如 getter/setter、toString()和 equals() 等方法。如何使用AutoValueAutoValue 的概念非常简单:由你来写一个抽象实体类,交给AutoValue来实现它。创建抽象类首先创建一个抽象类,为每个属性添加一个get方法,加上 @AutoValue...

2019-03-05 16:23:56 1890

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除