nanoleak coding-CSDN博客

原创 flink 加载外部cep规则

主程序代码：package cepengine.App;import cepengine.domain.Event;import cepengine.domain.InputEventSchema;import cepengine.domain.OutputEventSchema;import groovy.lang.GroovyClassLoader;import groovy.lang.GroovyObject;import org.apache.flink.cep.CEP;imp

2020-06-23 09:17:39 2106 11

翻译 PipelineDP

概述深入了解 PipelineDP 的工作原理以及项目背后的一些基本设计决策。请注意，该项目仍处于试验阶段，可能会发生变化。目前我们不推荐在生产系统中使用它，因为它还没有经过彻底的测试。您可以在路线图部分了解更多信息。关键概念本页解释了文档、代码和示例中使用的关键定义。设计概述PipelineDP 设计可以在多个数据处理框架上执行（包括本地执行），并且可以扩展到其他框架。这可以通过以与框架无关的方式实现所有 DP 逻辑来实现，与框架执行数据处理的方式完全分离。这是它的详细工作..

2022-05-29 21:01:08 307

翻译全同态加密 (FHE) 框架

同态加密密码系统是一种解密是态射的密码系统。Decrypt(a*b) = Decrypt(a) * Decrypt(b)同态加密密码系统允许在不解密的情况下对密文进行操作。它确保了端到端的语义安全，这确保了对诚实但好奇的对手的安全性。与机密计算不同，FHE 采用基于软件的数据加密/保护。由于 FHE 不在可信执行环境 (TEE) 中执行计算处理，因此在处理过程中可能会发生未经授权的访问或修改数据和应用程序代码。因此，FHE 不支持应用程序代码完整性和代码机密性。同态加密密码系统解决了带错

2022-05-29 20:42:37 4283

翻译远程数据科学：第 1 部分 - 当今大数据中的隐私挑战

远程数据科学：第 1 部分 - 当今大数据中的隐私挑战

2022-05-28 22:10:16 432

原创分布式事务的4种模式

AT、TCC、Saga、XA模式分析四种分布式事务模式，分别在不同的时间被提出，每种模式都有它的适用场景AT 模式是无侵入的分布式事务解决方案，适用于不希望对业务进行改造的场景，几乎0学习成本。 TCC 模式是高性能分布式事务解决方案，适用于核心系统等对性能有很高要求的场景。 Saga 模式是长事务解决方案，适用于业务流程长且需要保证事务最终一致性的业务系统，Saga 模式一阶段就会提交本地事务，无锁，长流程情况下可以保证性能，多用于渠道层、集成层业务系统。事务参与者可能是其它公司的服务或者是遗

2021-03-10 14:06:02 3182 1

转载 WeBankBlockchain 数据治理全景

什么是 WeBankBlockchain-DataWeBankBlockchain-Data 是一套稳定、高效、安全的区块链数据治理组件解决方案，可无缝适配FISCO BCOS区块链底层平台。它由数据导出组件(Data-Export)、数据仓库组件(Data-Stash)、数据对账组件(Data-Reconcile)这三款相互独立、可插拔、可灵活组装的组件所组成，开箱即用，灵活便捷，易于二次开发。这三个组件分别从底层数据存储层、智能合约数据解析层和应用层三个方面，提供了区块链数据挖掘、裁剪、扩容、

2021-03-10 11:47:46 548

转载 WeBankBlockchain-Data-Reconcile---基于区块链的对账组件

简介传统企业间的对账，依赖于对账双方的中心化账本。中心化账本在对账期间如果出现账不平的情况，排查非常耗时耗力。区块链作为信任的机器，具有不可篡改、分布式账本等特性，基于区块链的对账能够在对账不一致的情况下，找到一个可信的客观依据，从而减少因对账不平造成的排查成本。WeBankBlockchain-Data-Reconcile是一款基于区块链的对账组件，提供基于区块链智能合约账本的通用化数据对账解决方案，并提供了一套可动态扩展的对账框架，支持定制化开发。主要特性支持自定义对账数据结构.

2021-03-09 17:56:32 706

转载 Data-Stash--FISCO-BCOS的数据仓库组件

简介Data-Stash是基于FISCO-BCOS的数据仓库组件，通过解析节点的binlog日志，生成该节点的全量备份，从而使节点能够实现冷热数据分离、快速同步成为可能。除了生成全量备份外，还支持binlog校验、断点续传等功能。主要特性节点账本全量备份多维度binlog校验备份数据的可信存储支持断点续传轻量级接入 …组件介绍关键特性节点账本全量备份多维度账本校验备份数据可信存储断点续传易于使用使用场景 .

2021-03-09 17:54:23 408

转载 WeBankBlockchain-Data-Export--FISCO BCOS平台的数据导出工具

本文介绍的WeBankBlockchain-Data-Export，是区块链与大数据的结合的工具。区块链节点计算能力稀缺和KV存储的数据结构等技术特点决定了区块链上不适合进行复杂的数据查询、数据分析和数据计算等工作，上述工作更适合在链下完成。除了导出区块链的通用基础数据，例如区块高度、区块Hash、区块共识节点等，由于智能合约的不同，每个区块链项目都需要开发能够导出基于自身合约业务数据的应用，存在着大量工程、时间的重复和浪费。因此，我们致力于提供一个通用化、智能化、标准化的数据导出组件。WeB.

2021-03-09 17:46:18 528 2

转载 FISCO BCOS 区块链

FISCO BCOS是由国内企业主导研发、对外开源、安全可控的企业级金融联盟链底层平台，由金链盟开源工作组协作打造，并于2017年正式对外开源。社区以开源链接多方，截止2020年5月，汇聚了超1000家企业及机构、逾万名社区成员参与共建共治，发展成为最大最活跃的国产开源联盟链生态圈。底层平台可用性经广泛应用实践检验，数百个应用项目基于FISCO BCOS底层平台研发，超80个已在生产环境中稳定运行，覆盖文化版权、司法服务、政务服务、物联网、金融、智慧社区等领域。注解FISCO BCOS以联盟链

2021-03-09 17:38:51 2812

原创层级或多时间序列

Facebook Prophethttps://medium.com/swlh/facebook-prophet-426421f7e331How To Predict Multiple Time Series At Once With Scikit-Learn (With a Sales Forecasting Example)https://www.mariofilho.com/how-to-predict-multiple-time-series-with-scikit-lear...

2021-01-15 18:04:53 382

原创知识图谱--实体关系抽取，依存句法分析

我爱自然语言处理https://www.52nlp.cn/tag/%E4%BE%9D%E5%AD%98%E5%8F%A5%E6%B3%95%E5%88%86%E6%9E%90基于Hanlp的依存句法分析https://github.com/jsksxs360/AHANLP#4-%E4%BE%9D%E5%AD%98%E5%8F%A5%E6%B3%95%E5%88%86%E6%9E%90https://github.com/mengxiaoxu/entity_relation_extrac.

2021-01-15 17:56:25 3161

翻译 sparkling-water使用的笔记

RSparkling > The best of R + H2O + SparkWhat you get from R + H2O + Spark?R is great for statistical computing and graphics, and small scale data preparation, H2O is amazing distributed machine learning platform designed for scale and speed and Spark

2020-12-28 17:37:53 1869

翻译什么是零知识证明？

这篇文章是我们的“隐私保护数据科学”系列的一部分。随着人工智能领域的发展，我们的经济越来越以数据为驱动力。组织可以大量收集我们的数据，以便利用数据点之间保存的信息。因此，随着组织参与技术生态系统的发展，组织在存储您的数字足迹方面存在着不断增长的经济动力。监视资本家可能会使用此数据来了解使我们打勾的原因，并通过有针对性的在线广告产生收入。尽管这是相对无害的，但是自从那时以来，该技术已被应用到比零售更阴险的领域。在过去的十年中，使用了这些可扩展的大众说服工具，以破坏民主，甚至煽动暴力。随着这些工具监视的

2020-10-12 11:57:01 555

转载 phoenix建表映射有命名空间的hbase表

1.先开启schema与namespace的对应关系在phoenix中与hbase的命名空间相对应的是schema概念，默认是没有开启的，需要在hbase的hbase-site.xml中增加以下配置项<property> <name>phoenix.schema.isNamespaceMappingEnabled</name> <value>true</value></property><property&g

2020-09-27 11:57:00 1291

转载 HBase多条件及分页查询的一些方法

HBase是Apache Hadoop生态系统中的重要一员，它的海量数据存储能力，超高的数据读写性能，以及优秀的可扩展性使之成为最受欢迎的NoSQL数据库之一。它超强的插入和读取性能与它的数据组织方式有着密切的关系，在逻辑上，HBase的表数据按RowKey进行字典排序， RowKey其实是数据表的一级索引（Primary Index），因为HBase自己没有二级索引（Secondary Index）机制，基于索引检索数据只能单纯地依靠RowKey。也只有使用RowKey查询数据才能获得很是高的效率。固然，

2020-09-23 10:15:48 1454

原创 Centos 安装substrate

一，安装系统依赖包cmake pkg-config libssl-dev git gcc build-essential git clang libclang-devpkg-config安装方式：1、下载pkg-config：wgethttps://pkg-config.freedesktop.org/releases/pkg-config-0.29.tar.gz2、解压：tar -zxvf pkg-config-0.29.tar.gz3、cd 进入解压文件夹4、运行配置文件进行..

2020-09-21 14:05:29 475

原创用户企业画像相关调研

用户画像连载一：用户画像建设过程简析http://www.woshipm.com/user-research/778660.html有关标签划分的用户画像连载二：时尚全媒体用户画像建模http://www.woshipm.com/user-research/778704.html有关模型的。...

2020-08-27 13:40:37 973

原创通过使用flink cep进行网站的监控报警和恢复通知

package cepengine.app;import org.apache.flink.api.java.tuple.Tuple4;import org.apache.flink.cep.PatternSelectFunction;import org.apache.flink.cep.pattern.Pattern;import org.apache.flink.cep.pattern.conditions.IterativeCondition;import org.apache.fli.

2020-07-08 09:58:02 606 1

翻译从零开始学习加密高斯朴素贝叶斯

朴素贝叶斯：基于贝叶斯定理，朴素贝叶斯方法是用于分类的概率模型。当数据集的维数很高时，它们非常有用。贝叶斯定理：P（A|B）=P（B|A）*P（一）P（B）使用贝叶斯定理，假设事件B已经发生，我们可以找到事件A发生的概率。在这里，我们认为事件A和事件B是彼此独立的“天真”假设。对于我们考虑的所有特征向量均保持该假设。因此，要计算给定变量y的概率，我们将得到特征向量x1至xn，则贝叶斯定理可以应用为：P（y|X1个，X2，。。，X...

2020-07-08 09:46:59 377

转载 flink sql-clent MATCH_RECOGNIZE kafka 例子

环境 flink1.7.2python 增长flink1.7.2 的lib 中的jar，不然会报类找不到sql avro-1.8.2.jar flink-connector-kafka-0.10_2.12-1.7.2.jar flink-connector-kafka-base_2.12-1.7.2.jar flink-json-1.7.2.jar kafka-clients-0.11.0.0.jarflink-avro-1.7.2.jar

2020-06-23 15:46:06 549

转载 Apache-Flink深度解析-DataStream-Connectors之Kafk

Kafka 简介Apache Kafka是一个分布式发布-订阅消息传递系统。它最初由LinkedIn公司开发，LinkedIn于2010年贡献给了Apache基金会并成为顶级开源项目。Kafka用于构建实时数据管道和流式应用程序。它具有水平扩展性、容错性、极快的速度，目前也得到了广泛的应用。Kafka不但是分布式消息系统而且也支持流式计算，所以在介绍Kafka在Apache Flink中的应用之前，先以一个Kafka的简单示例直观了解什么是Kafka。安装本篇不是系统的，详尽的介...

2020-06-23 09:04:39 437

转载 Flink-Kafka指定offset的五种方式

本文转自：https://zhuanlan.zhihu.com/p/94592509默认：从topic中指定的group上次消费的位置开始消费。所以必须配置group.id参数从消费者组提交的偏移量开始读取分区（kafka或zookeeper中）。如果找不到分区的偏移量，auto.offset.reset将使用属性中的设置。如果是默认行为(setStartFromGroupOffsets),那么任务从检查点重启，按照重启前的offset进行消费，如果直接重启不从检查点重启并且group.id不变，程

2020-06-19 12:38:40 4525

翻译 Fast JDBC access in Python using pyarrow.jvm

While most databases are accessible via ODBC where we have an efficient way viaturbodbcto turn results into apandas.DataFrame, there are nowadays a lot of databases that either only come solely with a JDBC driver or the non-JDBC drivers are not part of ...

2020-06-12 10:03:37 236

翻译联邦学习-隐私保护数据科学解释 PRIVACY-PRESERVING DATA SCIENCE, EXPLAINED

我们今天要用数据科学解决的许多问题都需要访问敏感的个人信息-无论是我们的病史，财务记录还是个人习惯。每天，像您和我这样的人都会在我们的智能手机，电子设备或医疗设备上生成大量数据。但是由于隐私或专有方面的考虑，用于解决有意义的问题的数据可能会很有限且难以访问。我们可以在不侵犯个人隐私的情况下进行数据科学吗？如果是这样，我们可以结合哪些技术使其成为可能？传统上，训练模型将需要将此数据传输到中央服务器，但这引起了对数据隐私和安全性的众多担忧。数据泄漏和滥用造成的风险已导致世界各地立法制定数据保护法。为了在

2020-05-26 16:11:25 1745 1

翻译什么是联邦学习

在有关私有ML的入门系列文章中，我们将介绍联邦学习（FL），解释什么是FL，何时使用它以及如何使用OpenMined工具实现它。本文中的信息将为广泛的读者所理解，但逐节地，我们将深入研究和理解联邦学习。有关该系列的更多信息，请查看介绍性文章或查看其他文章，以了解更多有关可通过OpenMined的库启用隐私保护ML的技术的信息。介绍联邦学习最初于2015年提出，它是一种算法解决方案，可通过将模型的副本发送到数据驻留的地方并在边缘进行训练来训练ML模型，从而消除了将大量数据移到中央的必要性服务器用于

2020-05-25 16:01:59 3908

转载 docker镜像容器目录迁移

docker镜像容器目录迁移docker运维运维自动化迁移发布于 2019-07-23约 2 分钟背景docker镜像容器目录默认存放在Linux系统盘，导致系统盘空间不足，现把它迁移到其他盘停止服务systemctl stop docker# 或者/etc/init.d/docker stop迁移目录# 新建目录mkdir -p /home/dockermv /var/lib/docker/* /home/docker/修改配置文件vim /...

2020-05-25 10:56:36 1207

翻译用JavaScript编写Apache Spark程序

用JavaScript编写Apache Spark程序2020年3月19日scalasparkgraal-vmjavascriptApache Spark支持使用Scala，Java，Python和R等多种语言进行编程。这种多语言支持使Spark可以广泛用于各种用户和用例。并非Spark支持的所有语言都具有相同的API支持。Scala和Java支持完整的面向用户和库开发API。Python和R仅限于面向用户的API。存在这种差异是因为以一种语言添加对新API的支持需要进行大量工作。因此...

2020-05-21 18:12:49 814

翻译基于spark实现的全同态数据计算框架sparkfhe实现思路

Follow the SparkFHE project at https://github.com/SpiRITlab or http://sparkfhe.slack.comTry it out at https://github.com/SpiRITlab/SparkFHE-Examples/wiki

2020-05-20 17:55:51 578

翻译 Gandiva, using LLVM and Arrow to JIT and evaluate Pandas expressions

从11年前开始，我就一直是LLVM的忠实拥护者，那时我开始使用LLVM处理JIT数据结构（例如AVL），然后使用JIT限制的AST树和TensorFlow图中的JIT本机代码。从那时起，LLVM演变为最重要的编译器框架生态系统之一，如今已被许多重要的开源项目使用。我最近意识到的一个很酷的项目是Gandiva。Gandiva由Dremio开发，然后捐赠给Apache Arrow（为此向Dremio团队表示敬意）。Gandiva的主要思想是提供一个编译器来生成LLVM IR，该LLVM IR可以在批处理的A

2020-05-19 09:59:06 1021

翻译 MAINTAINING PRIVACY IN MEDICAL DATA WITH DIFFERENTIAL PRIVACY（通过差分隐私维护医疗数据的隐私）

通过差分隐私维护医疗数据的隐私想象一下，您在一家医院担任DL研究人员，而您的工作是寻找帮助医生抗击疾病的方法。由于冠状病毒（无形的敌人）大流行，越来越多的患者和大量CT影像等待被诊断。您决定创建一个图像分类器，这不仅可以减轻临床医生的负担，并帮助他们做出更明智的决定，还可以加快诊断速度并可能挽救生命。但是，这是一个挑战。您的CT图像未标记。引起您注意的是，其他5家医院都对CT扫描进行了注释（对于COVID 19，“阳性”或“阴性”），这正是您所需要的。尽管这些医院愿意提供帮助，但它们在共享患者信息方.

2020-05-19 09:42:45 1294

原创 Apache Arrow开源项目生态

参考：https://www.slidestalk.com/AliSpark/ApacheSpark57985https://arrow.apache.org/blog/2019/10/13/introducing-arrow-flight/https://www.infoq.cn/article/zT4Y91uhy84a2UGUK91Rhttps://www.influxdata.com/blog/apache-arrow-parquet-flight-and-...

2020-05-13 22:34:13 823

转载公钥可搜索加密-双线性对

我们将大数据存储在云服务器上，为了保护数据隐私，通常会选择先将数据加密后再上传。可搜索加密（Searchable Encryption）研究如何在密文上进行关键字搜索，分为对称可搜索加密（Searchable Symmetric Encryption）和公钥可搜索加密（Public-key Encryption with Keyword Search，PEKS）。虽然对称可搜索加密比较快，但在多用户数据共享方面，公钥可搜索加密的应用场景比对称可搜索加密更为广阔。双线性对（Bilinea...

2020-05-13 15:40:17 2940 5

原创 Weld: 高性能数据分析的公共运行时，spark sql， pandas ，numpy，tensorflow等的Common IR

一直在找一个大数据领域的通用编译优化器，最近注意到weld，这东西2017年就出来了，看着实在太强大。回头把相关论文撸一把，很hgih。官网：https://www.weld.rs/论文：https://cs.stanford.edu/~matei/papers/2017/cidr_weld.pdf数砖的介绍https://www.slideshare.net/databricks/composable-parallel-processing-in-apache-spark-a.

2020-05-13 11:44:21 799

翻译使用Apache Spark创建多语言管道或避免将spaCy重写为Java

In this guest post,Holden Karau,Apache Spark Committer, provides insights on how to create multi-language pipelines with Apache Spark and avoid rewritingspaCyinto Java. She has already written acomplementary blog post on using spaCy to process text da...

2020-05-12 16:51:31 376

翻译翻译--PySpark: Java UDF Integration

PySpark is the Spark API implementation using the Non-JVM language Python. Though developers utilize PySpark by implementing Python Code using Spark API’s (Python version of Spark API’s), internally, Spark uses data to be cached in JVM.The Python Driver

2020-05-12 14:51:21 323

转载 pyspark SparkSession及dataframe基本操作

pyspark SparkSession及dataframe基本操作 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 ...

2020-05-12 11:21:37 966

翻译翻译--什么是数据虚拟化及其如何直接从源系统中解锁实时见解

在当今快速发展的业务环境中，有许多报告要求，它们不能等待批处理过程从操作系统中加载数据。业务用户需要其本地ERP，CRM或任何云系统中当前的数据。例如，在一个财政季度末，销售和财务负责人希望实时了解订单预订，以便他们有一个好主意是否打算“按季度”实现收入。他们无法等待4–8个小时的延迟才能完成ETL作业。数据虚拟化（DV）是一种通过“虚拟”连接到各种源系统并“虚拟”组合或连接它们以为BI系统或企业应用程序提供统一数据层以供查询的方法来构建“逻辑”仓库的方法。数据虚拟化的高级架..

2020-05-11 09:27:37 877

翻译翻译--ASYNCHRONOUS FEDERATED LEARNING IN PYSYFT(PYSYFT中的异步联邦学习)

在这篇文章中，我们提供了使用PySyft应用联邦学习的展示。PySyft是一个开源python库，用于从OpenMined社区进行安全和私有的深度学习。它将私人数据与模型训练分离。在联邦学习中，每个边缘设备都处理自己的数据以进行训练，避免将其发送给另一个实体，从而保护了隐私。此外，训练阶段的主要处理工作是在设备上完成的，因此与在数据中心进行训练相比，减少了必要的带宽和数据处理。所有设备都可以通过组合其AI模型相互学习，这可以由可以放置在云中或边缘的中央协调节点完成。由于从设备发出的信息是最终的AI模型更

2020-05-10 23:58:56 1350 1

翻译翻译--USE CASES OF DIFFERENTIAL PRIVACY（差分隐私用例）

在此博客文章中，我们将介绍从生物医学数据集分析到地理位置定位的差分隐私（DP）的一些用例。有关为SG OpenMined Explorers研究组创建的与该帖子相关的幻灯片，请参阅@Ria的“差分性隐私和联邦学习用例”。让我们从将差分隐私应用于基因组学开始。基因组学机器学习对基因组学应用具有重要意义，例如对于精密医学（即针对患者的临床/遗传特征进行定制的治疗）1以及检测从不同人群中收集的数据中的细微见解2。鉴于快速创建了许多基因组数据集以促进这些应用程序的统计分析和机器学习研究，此类应用程.

2020-05-10 23:06:08 914

openwrt 开发文档

openwrt hacking

luci学习指南

Advances and Open Problems in Federated Learning.pdf

openwrt 嵌入式开发框架

GNU-ld链接脚本浅析

空空如也