白乔-CSDN博客

原创理解transformer

Transformer由论文提出，现在是谷歌云TPU推荐的参考模型。论文相关的Tensorflow的代码可以从GitHub获取，其作为Tensor2Tensor包的一部分。哈佛的NLP团队也实现了一个基于PyTorch的版本，并注释该论文。在本文中，我们将试图把模型简化一点，并逐一介绍里面的核心概念，希望让普通读者也能轻易理解。Transformer 与 RNN 不同，可以比较好地并行训练。

2025-01-14 08:53:56 668

1. 简介（Introduction）自以gpt3为代表的大语言模型问世以来，纯文本模态的大模型和多种模态混合的多模态大模型都获得了迅速的发展，无论是学术界还是工业界。文本模态的大语言模型几乎学习了目前人类能够从公开渠道获取到的所有的文本数据，结合模型规模的扩大以及模型“涌现”能力，使得大语言模型的“智能”、“记忆”、“推理”、“对话”、“创作”等多方面的能力得到了长足的发展。互联网发展到今天，除了海量的文本数据之外，还产生了更多的多模态数据，如图文多模态数据、音视频、甚至于某些终端还包含了位姿信号、深

2024-12-05 09:11:17 389

转载漫画大模型简史

2012年：杰弗里·辛顿的指导下，亚历克斯·克里泽夫斯基（Alex Krizhevsky）开发出AlexNet模型，在ImageNet图像识别竞赛中取得了显著的成绩，推动了深度卷积神经网络的发展。时间的从1943年说起，沃伦·麦卡洛克（Warren McCulloch）和沃尔特·皮茨（Walter Pitts）提出了人工神经元模型，也就是阙值逻辑单元（TLU），这是神经网络研究的基础。2023年：OpenAI发布了GPT-4，具备多模态处理能力和更强的理解与生成性能，进一步推进了通用人工智能的发展。

2024-12-05 09:04:30 160

转载消融实验（Ablation Study）

通过系统地移除（或“消融”）模型中的某些部分，并观察这种变化如何影响模型的性能，研究者可以深入了解各个组件在模型中的贡献程度，从而指导模型的改进和优化。然后，逐一或组合地移除模型中的某些组件，如特定的层、算法、特征等，每次修改后都重新训练模型并评估其性能。优化模型：基于消融实验的结果，研究者可以识别出对模型性能贡献较小的组件，并考虑将其移除或替换，以优化模型的整体性能。理解模型：通过逐步移除模型的不同部分，研究者可以更深入地理解模型的工作原理和各个组件之间的相互作用。

2024-12-05 08:56:45 5355

转载科学数据中心软件栈FairStack

FairStack面向科学数据中心在科学数据全生命周期管理中的共性需求，提供科学数据汇聚、管理、分析、共享全流程服务以及安全防护等支撑保障，致力于推进科学数据中心的FAIR化（可发现Findable、可访问Accessible、可互操作Interoperable、可重用Reusable）。面向机构科研团队的数据公开发布需求，提供科学数据发布审核、资源发现、资源访问和用户支持等核心功能服务，通过构建科学数据中心标准化服务接口，实现多元数据的互操作，并实现数据资源唯一标识（DOI，CSTR）。

2022-11-25 14:26:15 710

原创使用Neo4j+InteractiveGraph实现豆瓣电影知识图谱可视化

0.介绍本文基于豆瓣电影数据构建了一个电影知识图谱。其中包括电影、演员、导演三种节点及相关关系。并使用InteractiveGraph对图谱完成可视化工作。数据丰富，图谱包含2.7万个节点，5万条关系使用Neo4j图数据库进行图存储支持大图全局可视化预览支持节点关联发现支持节点展开浏览可视化所用到的程序包括：Tomcat 8.5 Neo4j 社区版3.5.12 InteractiveGraph 0.3.2 (项目地址:https://github.com/grapheco/

2021-02-05 11:18:46 5809 13

转载 RocksDB使用场景和特性

https://www.jianshu.com/p/3302be5542c7存储和访问数百PB的数据是一个非常大的挑战，开源的RocksDB就是FaceBook开放的一种嵌入式、持久化存储、KV型且非常适用于fast storage的存储引擎。传统的数据访问都是RPC，但是这样的话访问速度会很慢，不适用于面向用户的实时访问的场景。随着fast storage的流行，越来越多的应用可以通过在flash中管理数据并快速直接的访问数据。这些应用就需要使用到一种嵌入式的database。使用嵌入式的

2021-02-05 10:46:31 1180

转载 RocksDB调优指南

https://blog.csdn.net/zerooffdate/article/details/89458362本指南的目的是提供你足够的信息用于根据自己的工作负载和系统配置调优RocksDB。RocksDB非常灵活，这有好也有坏。你可以真多很多工作场景和存储技术进行调优。在Facebook，我们使用相同的代码跑内存工作压力，闪盘设备和机械硬盘。然而，灵活性不总是对用户友好的。我们引入了大量的调优参数，让人疑惑不解。我们希望这个指南会帮助你压榨你的系统的最后一滴性能并且完全利用你的资源。我们

2020-12-16 17:35:03 2604

转载转变：从SQL技术栈到图技术栈

【摘要】传统的以SQL为中心的技术栈无法有效地应对大数据场景带来的多元异构数据管理、大规模关系网络管理和复杂网络分析等挑战,本文针对新型大数据技术栈展开研究。通过分析图数据模型的优势,结合图技术的发展和应用现状,提出以图为中心的新型大数据技术栈，该技术栈在生物数据网络、科技知识图谱等实际应用中得到较好的验证。尽管该技术栈的大面积推广还存在支撑工具不足、应用生态不够成熟等困难。但我们相信，以图为中心的新型大数据技术栈会在更多的大数据应用场景中发挥更大的价值。1 以SQL为中心的技术栈　　1969年,C

2020-09-01 13:00:59 2427

原创图数据交互可视化分析框架InteractiveGraph v0.3版本发布

图数据交互可视化分析框架 InteractiveGraph日前发布v0.3版本，下载地址https://github.com/grapheco/InteractiveGraph/releases/tag/0.3.1。图数据模型具有对实体关系的表达能力强、属性及结构可扩展性好、关联查询高效等优势。在对海量的多元异构信息进行建模时, 图数据模型较关系模型、键值模型、文档模型等而言具有更好的直观...

2020-02-15 19:43:02 3870 6

转载 MySQL 主从复制与读写分离概念及架构分析

1.MySQL主从复制入门首先，我们看一个图：影响MySQL-A数据库的操作，在数据库执行后，都会写入本地的日志系统A中。假设，实时的将变化了的日志系统中的数据库事件操作，在MYSQL-A的3306端口，通过网络发给MYSQL-B。 MYSQL-B收到后，写入本地日志系统B，然后一条条的将数据库事件在数据库中完成。 ...

2019-11-15 09:03:02 341

原创白乔原创：理解Neo4j的Cypher执行引擎

org.neo4j.cypher.internal.ExecutionEngine其中execute() val preParsedQuery = preParser.preParseQuery(query, profile) val executableQuery = getOrCompile(context, preParsedQuery, queryTracer, ...

2019-09-28 19:34:39 1389

转载 Scala的编程规范与最佳实践

应用层80/20原则：80%的代码是纯函数，其余如处理IO，数据库，用户交互等方面的20%的代码也应该尽量轻量级培养面向表达式的编程思维，培养函数式编程思维用Actor模型实现并发功能将更多的行为从类里移到更细粒度的 trait中代码层坚持写纯函数习惯将函数作为变量和参数进行传递重点学习scala的集合类和其API尽量使用immutable代码，优先使用v...

2019-09-27 11:12:28 859

转载乐观锁与悲观锁

转载自https://blog.csdn.net/qq_34337272/article/details/81072874何谓悲观锁与乐观锁乐观锁对应于生活中乐观的人总是想着事情往好的方向发展，悲观锁对应于生活中悲观的人总是想着事情往坏的方向发展。这两种人各有优缺点，不能不以场景而定说一种人好于另外一种人。悲观锁总是假设最坏的情况，每次去拿数据的时候都认为别人会修改，所以每次在拿数据的...

2019-03-02 22:23:34 740

转载转载：用户画像建设过程简析

https://mp.weixin.qq.com/s?__biz=MzI0NzAwMzcyNQ==&mid=2247483655&idx=1&sn=11b9bf9c862e88ae6b744c1374e3335f&chksm=e9b7ee25dec06733a6cedf8dda35bbc841518cbd6a6d648cef1481e97b8cbfbee662416...

2018-11-28 17:50:40 1848

转载转载：用户画像系统原型

https://mp.weixin.qq.com/s/kEstjsrMhk7lfEk67r7Vnw用户画像的概念在前面写的一系列文章有过详细介绍，感兴趣的可以翻阅。这篇梳理下一个完整的用户画像产品有哪些功能，给出一个比较粗略的产品原型。用户画像建设过程简析|连载一建立用户画像的标签体系 | 连载二时尚全媒体用户画像建模 | 连载三构建新零售业态中的用户画像标签体系（附带整...

2018-11-28 17:32:33 2626

转载 Lambda架构已死，去ETL化的IOTA才是未来

http://www.sohu.com/a/228020781_115326经过这么多年的发展，已经从大数据1.0的BI/Datawarehouse时代，经过大数据2.0的Web/APP过渡，进入到了IOT的大数据3.0时代，而随之而来的是数据架构的变化。▌Lambda架构在过去Lambda数据架构成为每一个公司大数据平台必备的架构，它解决了一个公司大数据批量离线处理和实时数据处理的需...

2018-11-28 17:30:01 1885

转载分布式系统唯一ID生成方案汇总

https://www.cnblogs.com/haoxinyue/p/5208136.html系统唯一ID是我们在设计一个系统的时候常常会遇见的问题，也常常为这个问题而纠结。生成ID的方法有很多，适应不同的场景、需求以及性能要求。所以有些比较复杂的系统会有多个ID生成的策略。下面就介绍一些常见的ID生成策略。1. 数据库自增长序列或字段最常见的方式。利用数据库，全数据库唯一。优点...

2018-10-28 11:02:13 1265

转载 HBase的rowkey的设计原则

https://www.cnblogs.com/yuguoshuo/p/6265649.htmlHBase是三维有序存储的，通过rowkey（行键），column key（column family和qualifier）和TimeStamp（时间戳）这个三个维度可以对HBase中的数据进行快速定位。HBase中rowkey可以唯一标识一行记录，在HBase查询的时候，有两种方式：1、通...

2018-10-28 10:27:11 563

转载 ceph存储分布式系统设计系列 -- 基本原理及高可用策略

https://blog.csdn.net/skdkjzz/article/details/50737241?utm_source=blogxgwz1“分布式系统设计”系列第一篇文章，这篇文章主要介绍一些入门的概念和原理，后面带来一些高可用、数据分布的实践方法！！ ==> 分布式系统中的概念==> 分布式系统与单节点的不同==> 分布式系统特性==> 分布...

2018-10-27 20:20:48 1398

转载分布式小文件系统fastdfs与weedfs的对比

https://www.tuicool.com/articles/uaiimu最近拿一台双核1G的kvm vps搭建了一个图片的服务器，前面用百度云加速扛着，有了个专业图片存储及CDN的样子。每天还是有50W左右的PV，流量在30G左右。总结一下最近接触过的两个分布式小文件系统weedfs和fastdfs。fastdfs的详细介绍看这里=》传送门weedfs官方地址= >传送门...

2018-10-27 19:39:17 7608 1

转载浅谈数据仓库和大数据

转载自https://blog.csdn.net/Gospelanswer/article/details/78208761?utm_source=blogxgwz1前言数据仓库是今年来适应利用数据支持决策分析的强烈需求而发展起来的数据库应用技术，诚然，数据仓库以数据库为基础，但是他在需求、客户、体系结构与运行机制等方面与数据库存在重大的不同，Kimball说:"我们花了二十年的时间往数据库...

2018-10-21 11:25:20 1400

转载深度|从数据仓库到数据湖——浅谈数据架构演进

转载自https://mp.weixin.qq.com/s/321mkZsuxqXOme5hw_83mQ网管产品需要从数据仓库的角度来看，才能获得完整的视图。数据集成真正从大数据的角度来看，才能明白其中的挑战。一个运行了20多年的数据架构，必然有其合理性。也正是因为年代久远，存量过多，才导致举步维艰。在Cloud和5G时代，超密度网络集成和大数据洞察需求给电信供应商带来新的挑战，从数据仓库到数...

2018-10-20 19:45:31 16642 3

原创白乔原创：solr cloud的sql查询引擎solr-sql

SolrCloud介绍在我们应用还很渺小的时候，一台Solr服务器能完全胜任这份工作，随着我们应用慢慢长大，访问也越来越多，一台Solr服务器的弊病也逐渐显现如查询变慢了，机器宕机就无法继续提供服务，于是乎我们引入了Solr集群，通过前端负载均衡和索引Replication来分担一台机器的压力，这样既能提高查询速度，也能避免单机故障问题而且是可伸缩的解决方案，一切看起来很OK，问题也...

2018-10-20 19:28:58 1074

原创白乔原创：图数据在线交互框架InteractiveGraph

InteractiveGraph 详细介绍 InteractiveGraph 是一个使用JavaScript开发的开源项目，为大规模图数据提供了一个基于Web的交互操作框架，其数据可以来自于本地的GSON文件。 InteractiveGraph提供了3个基本应用，分别是图导航器（GraphNavigator），图浏览器（GraphExplorer）以及关系查找器（RelFind...

2018-10-20 19:24:29 2496

原创白乔原创：图数据在线交互服务器 InteractiveGraph-neo4j

InteractiveGraph-neo4j日前发布v0.0.1版本。InteractiveGraph-neo4j基于Neo4j数据库为InteractiveGraph提供服务器后端。InteractiveGraph为大型图数据提供了一个基于web的交互操作框架，其数据可以来自于GSON文件，或者在线Neo4j图数据库。InteractiveGraph 同时也提供了三个基于本框架的应用：G...

2018-10-20 19:13:07 1980

转载 AI框架大比拼，你喜欢哪一个？

转载自https://baijiahao.baidu.com/s?id=1589649119274801302&wfr=spider&for=pc人工智能（AI）已经存在很长时间了。然而，由于这一领域的巨大进步，近年来它已成为一个流行语。人工智能曾经被称为一个完整的书呆子和天才的领域，但由于各种开发库和框架的发展，它已经成为一个友好的IT领域，并有很多人正走进它。在这篇文章...

2018-10-20 18:47:07 3113

原创 virtualbox 安装增强功能时报缺少kernel的头文件的解决办法

```uname -aLinux vm1 3.10.0-693.el7.x86_64 #1 SMP Tue Aug 22 21:09:27 UTC 2017 x86_64 x86_64 x86_64 GNU/Linux```网上查了那么多的解决办法都没用，直接的办法是升级kernel版本：```yum install kernel-3.10.0-862.2.3.el7.x8...

2018-09-19 18:32:10 3433

转载 Scrapy简单入门及实例讲解

https://www.cnblogs.com/kongzhagen/p/6549053.htmlScrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。其可以应用在数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ...

2018-09-02 18:14:45 1201

原创 ceph+s3安装手记

参考资料： https://www.cnblogs.com/ytc6/p/7388654.html http://docs.ceph.com/docs/kraken/start/ https://blog.csdn.net/changtao381/article/details/48015623 https://blog.csdn.net/litianze99/article/detail...

2018-07-09 09:39:44 4603

转载不看后悔 | 分分钟教你做知识图谱大数据专家

http://chuansong.me/n/1840839551422知识图谱示例假设你想搜与“联想”有关的信息，下图是谷歌搜索结果。请观察左侧和右侧红框的搜索结果有什么不同呢？左侧是传统谷歌搜索返回的一列依相关度排列的网站链接，你要自己打开一个个网页去阅读抽取与“联想”有关的知识。右侧则将一条条与“联想”有关的知识作为结果直接呈现给你，例如联想的简介、股价、CEO、创立信息等等（省去了自己一个个...

2018-06-23 20:03:30 11940 2

转载干货 | 知识图谱的技术与应用

https://mp.weixin.qq.com/s/j94s-jQjJ11zXSDD_uEcAA作者 | 李文哲，人工智能、知识图谱领域专家导读：从一开始的Google搜索，到现在的聊天机器人、大数据风控、证券投资、智能医疗、自适应教育、推荐系统，无一不跟知识图谱相关。它在技术领域的热度也在逐年上升。本文以通俗易懂的方式来讲解知识图谱相关的知识、尤其对从零开始搭建知识图谱过程当中需要经历的步骤...

2018-06-16 15:11:33 1683 1

转载展示联结数据的内在之美：全新的Neo4j Bloom可视化工具

转载自https://blog.csdn.net/graphway/article/details/80211546四天前，5月2日，在旧金山的Neo4j GraphTour，Neo4j公司的首席执行官Emil Eifrem宣布Neo4j图数据库平台新增一款全新产品：Neo4j Bloom。Neo4j Bloom是一款突破性的图数据可视化产品，它允许图数据库新手和专家能够与同行、管理人员和其他业务...

2018-05-30 10:06:17 18545

转载使用Neo4j进行全栈Web开发

转载自http://www.infoq.com/cn/articles/full-stack-web-development-using-neo4j在开发一个全栈web应用时，作为整个栈的底层，你可以在多种数据库之间进行选择。作为事实的数据源，你当然希望选择一种可靠的数据库，但同时也希望它能够允许你以良好的方式进行数据建模。在本文中，我将为你介绍Neo4j，当你的数据模型包含大量关联数据以及关系时...

2018-05-30 10:03:56 4179

转载 Neo4j高级应用技术专题系列 - APOC存储过程库-【1】概述

转载自https://blog.csdn.net/graphway/article/details/78957415前言我最近加入Neo4j，负责亚太地区的产品和技术支持，常驻悉尼。看到国内用户对Neo4j和图数据库的热情，以及应用领域的广泛，让我倍感鼓舞。同时，在和同行们进行交流后，有感于介绍相关产品设计理念和技术细节资料的匮乏，我强烈地感到应该为此做些力所能及的事情。本文就是在这一理念驱动下的...

2018-05-30 09:59:37 549

转载 TimerTask 和 Quartz比较

转载自https://blog.csdn.net/gongyouong/article/details/72965451精确度和功能 Quartz可以通过cron表达式精确到特定时间执行，而TimerTask不能。Quartz拥有TimerTask所有的功能，而TimerTask则没有。任务类的数量 TimerTask和Quartz每次执行任务时，每次调用的是不是都是同一个任务类对象，...

2018-05-28 10:39:50 697

转载 mysql事务、redo日志、undo日志、checkpoint详解

转自：https://zhuanlan.zhihu.com/p/34650908事务：说起mysql innodb存储引擎的事务，首先想到就是ACID（不知道的请google），数据库是如何做到ACID的呢？举个例子：数据库数据存放的文件称为data file；日志文件称为log file；数据库数据是有缓存的，如果没有缓存，每次都写或者读物理disk，那性能就太低下了。数...

2018-05-17 13:24:04 5144 4

转载对ceph radosgw的一些理解

https://blog.csdn.net/wytdahu/article/details/46532245Ceph本质上就是一个rados，利用命令rados就可以访问和使用ceph的对象存储，但作为一个真正产品机的对象存储服务，通常使用的是Restful api的方式进行访问和使用。而radosgw其实就是这个作用，安装完radosgw以后，就可以使用api来访问和使用ceph的对象存储服务了...

2018-04-16 14:06:10 4757

转载 JavaScript中使用bind()方法

转载自http://blog.csdn.net/qq_17505335/article/details/52222571什么是bind（）？bind函数最近才添加到JavaScript的规范说明中，所以它只能工作于最新的浏览器上。你可以查看兼容性表看看哪些浏览器实现bind()以及其他JavaScript功能。我仔细地看了看名单，我关注的浏览器没有不支持bind()的。当然你的情况可能会有所不同。...

2018-03-18 17:48:47 356

转载基于Canvas的动画基本原理与数理分析

转载自https://www.jianshu.com/p/e70c9cfbdb38什么是动画？就像思考哲学问题无法回避思维和存在的关系一样，制作动画同样无法逃避的问题是动画的原理是什么？这里提一句题外话，任何原理的东西通常难以让你短期拾掇成果，但在隐约的未来会起到难以置信的效果，不信就看接下来小羊的一些学习成果分享。驯龙高手动画本质上是图像按照事先设定好的顺序在一定的时间内的图像序列变化运动。这种...

2018-03-18 16:30:06 1069

Jena-HBase - A Distributed, Scalable and Efficient RDF Triple Store

基于Jena的分布式RDF数据库实现，可自由伸缩，三元组

2014-08-11

bigdata架构白皮书

bigdata架构白皮书，bigdata是开源的RDF数据库

2014-08-30

pdsh-2.26源文件

pdsh的全称是parallel distributed shell，与pssh类似，pdsh可并行执行对远程目标主机的操作，在有批量执行命令或分发任务的运维需求时，使用这个命令可达到事半功倍的效果。同时，pdsh还支持交互模式，当要执行的命令不确定时，可直接进入pdsh命令行，非常方便。

2017-02-06

spring security oauth2的client演示包tonr2

spring security oauth2的client演示包tonr2，所有的jar都齐全了

2014-10-09

微软VisualStudio2008提供的图片集

2008-09-17

oauth2的示例工程源代码spring-security-oauth-samples（含war包）

oauth2的示例工程源代码，含build好的war包来源于github，但build会很耗时间直接取出2个target目录下的war文件改名为tonr2.war和sparklr2.war 置于webapps下启动tomcat后，访问http://localhost:8080/tonr2 即可体验演示工程

2016-02-15

spring-security-oath2自带sample的sparklr的war版

spring-security-oath2自带sample的sparklr的war版好不容易mvn成功的，供下载！

2013-08-26

spring-security-oath2自带sample的tonr的war版

spring-security-oath2自带sample的tonr的war版好不容易mvn成功的，供下载！

2013-08-26

FlashNow!动画浏览器

类似于ACDSee浏览/查看双界面的Flash动画播放器，方便快捷的播放控制，可以直接在地址栏输入flash动画的URL，可以随意保存本地/远端Flash文件，支持flash多格式转换，支持全屏播放，支持浏览预览；

2006-03-16

java反编译器的GUI版本：jd-gui

很好的java反编译器，忘掉eclipse插件吧：）本人的eclipse无论安装哪种java反编译器，总是失败~~~ 绝望中找到jd-gui jd-gui可以关联上eclipse中的.class文件并自动在左侧的目录视图中打开class文件所在的目录同时支持各个class之间的跳转 http://jd.benow.ca/

2015-02-25

HTTPAnalyzer v7.rar

HTTPAnalyzer v7 很好的HTTP通讯监控窗口，可用来调试

2014-09-16

jena-arq2.9

jena arq 2.9的源码下载 semantic web RDF处理中间件

2013-12-16

jsecurity-0.9.0

JSecurity是一个强大、灵活的Java开源安全框架。它能够简捷地处理认证、授权，集成session管理和单点登录(SSO：single sign-on)。

2008-11-10

spring-security-oauth2下的sparklr2的war包

spring-security-oauth2下的sparklr2的war包，官方的没有现成的war包，需要使用maven打包，这个是打包好的

2014-10-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人