自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 资源 (3)
  • 收藏
  • 关注

翻译 【GPT4技术揭秘】GPT-4 Architecture,Infrastructure,Training Dataset,Costs,Vision,MoE

在开始之前,作为一个旁观者,我们想指出的是,我们接触过的每一家LLM公司都认为Nvidia的FasterTransformer推理库非常糟糕,而TensorRT甚至更糟由于无法使用Nvidia的模板并对其进行修改,这意味着人们需要从头开始创建自己的解决方案。如果Drafi模型的预测是正确的_-较大的模型也同意--那么就可以用一个批次解码多个token,这就为每个token节省了大量的内存带宽,从而节省了时间。许多人认为内存容量是LLM推理的主要瓶颈,因为模型的大小可以容纳在许多芯片上,但这是不正确的。

2023-07-12 17:56:34 1602

原创 NLP中Tokenizers总结(BPE、WordPiece、Unigram和SentencePiece)

本文详细介绍了NLP中常用的Tokenizer

2022-08-29 20:36:23 4966

原创 pyhanlp安装文档

HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。Pyhanlp (Python interfaces for HanLP)是HanLP的python接口,支持自动下载与升级HanLP,兼容py2、py3。本教程相关环境:Python3.6.5 Java 1.8 Win10系统64位 Anaconda3-5.2.0-Windows-x86_64安装流程1.安装 ja.

2021-09-18 17:42:55 330

转载 项目实战:如何构建知识图谱

实践了下怎么建一个简单的知识图谱,两个版本,一个从 0 开始(start from scratch),一个在 CN-DBpedia 基础上补充,把 MySQL,PostgreSQL,Neo4j 数据库都尝试了下。自己跌跌撞撞摸索可能踩坑了都不知道,欢迎讨论。1. CN-DBpedia 构建流程知识库可以分为两种类型,一种是以 Freebase,Yago2 为代表的 Curated KBs,主要从维基百科和 WordNet 等知识库中抽取大量的实体及实体关系,像是一种结构化的维基百科。另一种是...

2021-09-02 18:07:11 1784 3

windows下安装Pyhanlp详细教程及相关问题解决

本文档包含了在windows系统下安装PYhanlp的详细步骤,以及在安装过程中遇到的相关问题的解决方案。

2019-05-07

数据挖掘之不均衡建模问题

在实际情况中我们常常需要在数据分布不均衡的情况下进行建模分析,本文总结了常见的针对数据不平衡问题建模的方法。

2018-05-04

数据不均衡问题经典文献《Learning from Imbalanced Data》

数据不平衡是指在数据集中,一类(或多类)样本特别多而另一类(或多类)样本特别少。这种问题广泛存在于金融欺诈、医学检测、网络入侵等场景中。

2017-12-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除