2023年05月_沧海之巅

10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创语言模型及Word2vec与Bert简析

将句子的概率分解为各个单词条件概率的乘积，如果文本较长, 条件概率的估算会非常困难（维数灾难），所以就规定当前词只和它前面的n个词有关，与更前面的词无关，每一个词只基于其前面N个词计算条件概率 —— N-gram语言模型，一般N取1到3之间。词的静态表征，不能解决同义词问题，如水果中的“苹果”和苹果公司的“苹果”，词向量表示是一样的，而实际上这两词的意思完全不一样。，来作为我们每个词的向量表示（词向量），用于nlp下游任务的输入或用于NLP模型的词嵌入。单词序列：[我，狗，被，了，咬]

2023-05-17 19:56:43 1056

原创一键部署容器化版本，助力开发者快速试用WeDataSphere开源大数据平台套件

您是否为搭建包含Hadoop、Hive、Spark等基础计算存储引擎的WeDataSphere（以下简称WDS）开源大数据平台套件而烦恼？是否希望能有一种简单快捷的方式来完成所有组件的部署和试用？如果您也曾遇到WeDataSphere开源大数据平台套件的部署试用问题，那么现在我们有了一个令人振奋的消息！****

2023-05-17 19:14:39 2125

原创 ChatGPT+小红书爆文，牛！

首先你要把ChatGPT当成你团队的成员，它是很专业的，为了更好地利用ChatGPT作为团队成员，需要明确问题背景和目的，比如说你是谁，你要解决哪些问题，用什么方法，或者有什么样的一些建议，这点要明确下来。如果说他给出的一些答案，都是非常标准，或者比较机械化的，你应该告诉他你希望他能够更加灵活，以更人性化的方式回答问题，像一个正常的用户或者人去给出一些答案。比如你是否能理解小红书爆文的定义，如果他回答的问题，他不是你要的，你就跟他说，小红书爆文的定义是什么，让他明白这个定义是什么，接着后续提问。

2023-05-17 19:14:27 1112

原创开源LLM「RWKV」想要打造AI领域的Linux和Android｜ChatAI

二是所有的云服务资源消耗是不经济的，因为终端上有计算能力，但仍然要调用云端的计算能力，这是对算力的浪费。在同等参数量下，RWKV和这两个模型都是互有胜负的关系（有的能力更强，有的能力更弱）。LLaMA是1.5T，RWKV是0.3T，只有LLaMA的五分之一数据量，但现在RWKV的能力也已经很强，说明RWKV的上升空间很大。和他们相比，我们的资源消耗更低。举个简单例子，Attention的核心是Q、K、V，它会根据Query往前查找比对，找到匹配的Key，把Value取过来，这类似于人查阅资料的过程。

2023-05-17 19:12:38 1145

转载大语言模型的演进

目前包含70亿、130亿、330亿和650亿这4种参数规模的模型，参数仅为十分之一的LLaMA-130亿的性能优于OpenAI推出的GPT3(1750亿参数)，也即支持ChatGPT的GPT3.5的前身。2022年11月30日，OpenAI发布了约2000亿参数的ChatGPT，是对GPT-3模型（又称为GPT-3.5）微调后开发出来的对话机器人。2023年3月14日，斯坦福大学发布了Alpaca，它是由Meta的LLaMA 70亿参数微调而来的全新模型，仅用了52k数据，性能约等于GPT-3.5。

2023-05-11 21:18:40 553

原创被ChatGPT“抢饭碗”的人

身处芯片行业的合肥跃鞍电子负责人刘程（化名）对《橡果商业评论》介绍道，经过实验，他发现，ChatGPT已经可以实现一些复杂场景的代码开发，“无论是脚本，环境搭建，模块设计，还是VIP（Verification IP）设计，验证计划的提取，GPT都能参与其中。例如，C++已经有几十年历史，工程师更偏爱使用其他简洁语言，这让他们花费更少时间、精力，去写出更正确代码，但是ChatGPT问世以后，打破了这个规律，C++积累的代码量大，使用C++，ChatGPT生成结果质量最高。而科技进步，又依赖对教育的投入。

2023-05-11 21:15:04 1136

原创全面接入！ChatGPT杀进15个商业应用，让AI替你打工

国内企业也已有布局，创立于2020年的计算美学（Nolibox）是清华大学孵化的科技企业，目前已推出了全球首款可商用视觉设计数据集，旗下核心产品包括AIGC生产力工具“画宇宙”、智能设计引擎“图宇宙”，下一步计划推出AI设计创意平台Yeahpix。4月，其他云大厂也陆续跟进。从知名投资团队启明创投的一张统计图可以看到，根据其与100多家企业交流统计，生成式AI创业覆盖的86%是应用领域，具体涉及聊天机器人、智能助手、AI服务、生产力工具、下一代交互等多个方面，追溯下一层具体场景更是门类众多。

2023-05-11 21:07:40 4486

原创造梦日记 Printidea 用户手册

徐悲鸿，中国现代画家、美术教育家，擅长人物、走兽、花鸟，主张现实主义，于传统尤推崇任伯年，强调国画改革融入西画技法，作画主张光线、造型，讲求对象的解剖结构、骨骼的准确把握，并强调作品的思想内涵，对当时中国画坛影响甚大，与张书旗、柳子谷三人被称为画坛的“金陵三杰”。是现代艺术的创始人，西方现代派绘画的主要代表。宇宙、雨天、云朵、银河、阴暗的天、阳光、旋转的尘埃、星云、水汽、深渊、闪电、柔和的雾、日出、瀑布、落日、未来都市、街景、海洋、光环、废墟、大海、浪花、晨雾、城市、草原、彩虹、冰河、薄雾、暴风雨。

2023-05-11 08:41:44 2117

原创 lmg_Model Links and Torrents

[05-07-2023] - Added Vicuna 13B Cocktail, bluemoonrp-13b & AlpacaDente2[05-05-2023] - Added CPU quantization variation links[05-02-2023] - Initial RentryVRAM Required takes full context (2048) into account. You may be able to load the model on GPU’s with

2023-05-09 20:01:31 1006

原创最时髦的AI画画，一文包教包会

可以商用自己创作的图像，但图像如果是通过 DreamStudio 生成的，就自动变成了 CC0 1.0 授权，这样，服务提供商 Stability.ai 也能处理你的图像，无需付费甚至不会经过你同意，也会一并成为通用公共领域 royalty-free 的图片资源。6pen 基于市面上已有的开源模型 Latent Diffusion 和 Disco Diffusion，做了自研模型，还根据生成速度和体量，分别研发了擅长小体量、简单场景的南瓜模型，和擅长复杂场景，但响应速度较慢的西瓜模型。

2023-05-09 20:00:05 1608

原创零基础入门 Stable Diffusion - 无需显卡把 AI 绘画引擎搬进家用电脑

目前，Stable Diffusion 有 sygil、auto、auto-cpu 和 invoke 四个分支。如果需要更换分支，可以修改镜像构建命令中的[ui]，将其替换为所需的镜像名即可。原先的hlky分支已经更名为sygillstein分支更名为invoke。sygil：界面直观，最高分辨率为 1024x1024，镜像构建命令为。auto（推荐）：设置模块最丰富，显示绘画过程，支持随机插入艺术家、参数读取和否定描述，最高分辨率为 2048x2048（高分辨率对显存要求更高），镜像构建命令为。

2023-05-09 19:54:08 2932

原创因去年开发出ChatGPT，OpenAI亏损5.4亿美元

不过，据 The Verge 透露，作为这项投资的一部分，微软在前期有权获得 OpenAI 75% 的利润，直到它收回投资的 100 亿美元，以及微软早期投资该公司的额外 30 亿美元。为此，OpenAI 亏损去年翻倍，也便不足为奇。更为不容忽视的是，对于这家开发了 ChatGPT 的初创公司而言，因为大模型需要耗费巨大的算力资源和数据，以及其背后运营也要付出不菲的开销，仅是在 2022 年，OpenAI 总计损失达到了 5.4 亿美元，与之形成鲜明对比的则是其产生的收入只有 2800 万美元。

2023-05-07 20:56:24 384

原创 Typora + PicGo + Gitee 搭建免费图床

总的来说，搭建过程不算难，只需要了解这些软件的简单使用即可。终于拥有自己的图床了，再也不怕网站挂了图片不显示，最主要的是还去水印！

2023-05-05 22:08:06 949

原创【markdown工具配合图床】PicGo图床配置教程，一秒读懂配置

看到这篇文章的大佬，我默认大家都会配置git，已经配置好ssh公钥。此时你看到的这篇文章就是基于markdown工具（VSCode，Typora）编写的。PicGo作为图床转换工具，并配合gitee作为图片服务器（仓库）。个人设置找到私人令牌（配置图床时需要）

2023-05-05 22:03:05 2462

原创国产ChatGPT命名图鉴

在做客央视财经频道《中国经济大讲堂》时，百度CTO王海峰曾表示：“文”是语言文字，“心”是用心理解，“文心”指致力于理解和运用语言文字的自然语言理解模型，同时也呼应了《文心雕龙》，寓意用雕缕龙纹一样精细的功夫去研究语言文字的内涵和魅力；就以备受好评的“饿了么”为例，杨泽解释道：“现在美团一直在强调什么都做，饿了么（延展业务）就难一些，因为它过于聚焦‘饿’的场景，这是品牌名称形成的，早期的时候可能让人感觉印象很深刻，但是到现在我们发现它名字的延展性是有问题的。“天工”一词与“人工”相对，指向天然形成的工巧。

2023-05-05 21:55:31 28727 24

原创 ChatGPT AI使用成本

对于像 BERT 这样亿级参数的小语言模型，选择 ml.m5.xlarge 这类更便宜的实例就足够了，其每小时成本仅为 0.23 美元，全天只合约 5 美元。Meta 发布了 LLaMA ，一个具有数十亿参数的大语言模型，且性能优于 GPT-3。而且虽然开源大模型的托管比较复杂，但像 BERT 这类亿级参数的小语言模型在特定任务上仍是个很好的选择。也就是说，在 AWS 上托管像 Flan-UL2 这样的开源大模型，每天 1000 请求时的成本为 150 美元，每天 150 万请求则为 160 美元。

2023-05-05 21:52:02 4303 1

原创国产版ChatGPT大盘点

②在算力方面，针对教育垂类，成本将有所下降。此外，在自然语言理解方面，中文的多义性有天然的高门槛，而像ChatGPT这类产品背后是整个互联网庞大的语料库，对于国内平台来说自然无法避免合规性的问题，因此除了自然的理解与回到用户的各种刁钻问题，中国版ChatGPT也需要比国外同类产品更严格的审核机制，甚至在早期可能还需要人工审核的存在。不久前腾讯发布财报后，腾讯总裁刘炽平也透露了腾讯聊天机器人的计划，“不急于求成，先打好基础，再追求新进展，我们的第一款产品将会是多次迭代之后的产品，整个过程将是长期的”。

2023-05-05 21:48:14 5470