- 博客(1326)
- 资源 (277)
- 问答 (4)
- 收藏
- 关注

原创 AIGC生产工艺流程之games生产流程
一般来说,游戏生产流程包括游戏设计、策划、程序开发、美术制作、音效制作等等环节,具体流程可以根据不同公司和项目有所差异。程序开发负责实现游戏的功能和逻辑,美术制作则包含角色、场景、特效等各种美术素材的制作;总的来说,“games生产流程”是指将游戏设计、策划、程序开发、美术制作、音效制作等各种环节有序、高效地协同工作,并最终制作出一款满足玩家需求、游戏玩法合理、画面好看、音效专业的优秀游戏的过程。需要注意的是,这些步骤并不是按照线性方式进行的,而是通过不同之间的“同样的单词相同的元素”的联系结合在一起的。
2023-04-27 20:50:08
1766
原创 使用js 完成chrome web 自动化或者爬虫模版例子
检查元素的文本内容,如果含有"拆包选包",并且其中的IMG元素含有"dixiao",则会触发以下操作:点击元素,点击插线按钮,修改开关属性,点击确定插线按钮,尝试点击取消按钮。总的来说,这段代码主要为了在页面上自动执行一系列的操作,包括滚动页面、查找特定元素、点击按钮、修改属性等,并对可能出错的情况进行处理。总之,JavaScript语言和丰富的库提供了许多优势,这使得JavaScript成为一种流行的语言,用于编写爬虫。然后,通过while循环,实现向下滚动,每次滚动100的高度,并适当延迟。
2023-09-23 09:45:23
32
原创 为辅助自然语言模型推理,建立超大词表,并查询
在文本生成任务中,通过使用词典先查询的方式,可以将大量的生成工作交给词典处理,而只需要让生成模型生成剩余的部分。此外,使用词典还可以显著提高生成文本的质量和流畅度,因为词典中的单词和短语符合语法规则和上下文的限制。方法读取之前生成的词表,然后针对输入的文本进行处理,对于每个词语,提取其末尾字,并在词表中查找以此字开头的单词,得到匹配的词语,即文本中的关键词。中的数据,将数据分成多个小块进行jieba分词,得到每个块的词表,并将所有块的词表合并成一个全局词表,最后使用。函数用于生成词表,通过读取。
2023-09-23 09:44:42
35
原创 重构Transformer神经网络:优化的自注意力机制和前馈神经网络
因此,本研究的目标是设计一种新颖的、优化的Transformer神经网络模型,以同时保持强大的性能和降低计算复杂性。本论文研究了一种改进的Transformer神经网络模型,该模型使用区别于传统自注意力机制的新型注意力机制,以及优化的前馈神经网络。而且,该模型还引入了非线性激活函数以增强模型的表现力。为验证我们的模型性能,我们对比了现有的Transformer和这种新型Transformer在不同数据集上的性能。改进的自注意力机制和前馈神经网络为处理长序列数据带来了巨大的优势,同时保留了强大的模型性能。
2023-09-19 10:07:45
361
原创 基于反向推理的序列预测模型
如完整输入序列为"12345",可以通过针对"123456"、“123457”、"123458"等可能的后续序列,进行反向推理,从而得出“3”的可能性。因此,一个新的预测理论的提出,将有助于解决此类问题,即利用反向推理进行序列预测。总的来说,反向推理提供了一种全新的解决序列预测问题的思路,这是一种更为主动探索的方法,它将预测问题从历史依赖性的角度进行了解决,拓宽了预测模型的视野,为未来的研究提供了新的可能性。因此,反向推理不仅可以解决缺乏历史信息的问题,还可以通过比较所有可能的预测结果,获取最可能的结果。
2023-09-15 15:42:05
176
原创 使用jieba 分词拆分文本的逻辑和逻辑对象并制作搜索引擎
在词性代号之前加上 “n”,可以得到与 ICTCLAS 标注集的对应关系。对于中文文本的分词和词性标注都非常精准,是中文 NLP 领域中常用的工具之一。希望这个信息对你有帮助!如果还有其他问题,请随时提问。
2023-09-11 19:26:56
114
原创 Transformer貌似也是可以使用state递归解码和训练的
而Transformer的Multi-Head Attention操作则是一种特殊的注意力机制,通过查询、键、值三个线性变换来计算注意力分布,并将其应用于序列中的元素,通过多头方式增加了模型的表达能力。在上述代码中,根据文档建议,添加了残差连接和层归一化操作,以增强模型的训练和泛化能力,并将非线性激活函数应用到输入向量的计算中。使用更强大的模型结构:除了改进自注意力机制,还可以考虑引入其他Transformer中的模块,如位置编码、Feed Forward网络等,以进一步提升模型的性能。
2023-09-10 19:11:35
164
原创 python实现了一个顺时针元素递增矩阵
具体来说,当i=1时,代码将1放在mr的中心的元素上。当i为奇数时,代码每次向右和向下移动中心坐标,并增加计数器count,然后将count的值放在新的位置上。当i为偶数时,代码每次向左和向上移动中心坐标,并增加计数器count,然后将count的值放在新的位置上。这段代码是用Python和NumPy库编写的,它的主要目的是创建一个特定的二维数组,然后计算并打印该数组的特定行或列的和。在填充完mr后,代码将所有元素平方,乘以2,然后减去原始的mr。然后,代码遍历数组的每一行和每一列,并计算它们的和。
2023-09-06 23:16:17
223
原创 基于简单的信息变换实现自然语言模型
摘要: 本文提出了一种基于信息变换的自然语言模型,该模型通过一系列的信息变换,包括分割、属性等效替换、增加删除等变换,实现了对自然语言信息的处理和推理。该方法将输入信息进行一系列的信息变换,如分割、属性、等效替换、增加删除等变换,与原始信息进行比较,得知信息是否为已知信息。基于信息变换的自然语言模型是一种新颖的自然语言处理方法,它通过一系列的信息变换实现对自然语言信息的处理和推理。基于信息变换的自然语言模型的基本原理是将输入的自然语言信息进行一系列的信息变换,包括分割、属性等效替换、增加删除等变换。
2023-09-01 17:05:43
163
原创 建立文档向量模型:使用gensim Doc2Vec 进行文本相似度计算
该代码的主要功能是使用 gensim.models.Doc2Vec 库建立文档向量模型,并用该模型计算和查询新文档的相似文档。训练模型:使用 gensim.models.Doc2Vec 类训练文档向量模型,并设置了向量维度 vector_size =保存模型:使用 pandas 库将训练好的模型保存为名为 doc2vec.pandas_pickle 的文件,方便之后使用。准备数据:在代码中,准备了一个名为 documents 的文档集合,包含了三个示例文档。在代码中,计算了和新文档最相似的两个文档。
2023-08-31 20:09:39
148
原创 paddle.load与pandas.read_pickle的速度对比(分别在有gpu 何无gpu 对比)
paddle无论是在任何平台速度比pandas慢很多,分析可知这个属于IO操作,GPU并不参与。
2023-08-29 21:16:48
114
原创 手搓大模型之only em for pos之增加依赖性
然后将这个向量添加到词汇的嵌入表示中,从而使得模型能够学习到词汇在上下文中的位置信息。因此,如果模型能够考虑到单词在上下文中的位置信息,将增加模型识别上下文中依赖性的能力。例如,在一句话中,“我今天很高兴”,如果模型能够知道“高兴”单词的相对位置在“今天”单词之后,那么它就能更好地理解句子的语义。总之,通过增加token相对位置,可以帮助自然语言生成模型更好地捕捉上下文的依赖性,并提高模型的性能。在自然语言生成模型中,通过增加token相对位置可以更好地捕捉上下文的依赖性,从而提高模型的性能。
2023-08-27 18:19:21
162
原创 copy is all you need前向绘图 和疑惑标记
主要功能是给定一个文本序列和一个查询序列,预测查询序列中的起始和结束位置,使其对应文本序列中的一个短语。首先,使用BERT将文本序列编码成一个张量作为输入,并从GPT-2模型中提取查询序列的表示。然后,将查询序列的表示拆分为起始和结束两部分,并使用MLP将短语的起始和结束点表示投影到另一个空间中。接下来,利用生成式模型计算每个查询起始和结束位置之间的所有令牌的概率分布,并根据此生成预测位置。最后,计算起始和结束位置的准确性和整个短语的准确性,并返回损失和准确性的值来优化模型的性能。
2023-08-25 23:00:55
266
原创 最大内积搜索(MIPS) 使用python 举例 三种AIGC生成对比
然后,我们检查排序后的第一个向量的内积是否大于epsilon倍的q的欧几里得范数乘以该向量的欧几里得范数。最大内积搜索(Maximal Inner Product Search,MIPS)是一种在向量空间中搜索具有最大内积的向量的方法。请注意,这只是一个简单的示例,实际应用中可能需要更高效的数据结构和算法来处理大规模的向量搜索。在上面的代码中,我们首先导入了NumPy库,这是一个用于科学计算的Python库。在上述示例中,我们首先定义了一个数据库的向量集合和一个查询向量。函数找到内积最大的向量的索引。
2023-08-25 23:00:11
279
原创 基于进制嵌入及累计解码的大模型研究
在本文中,我们使用了一个名为EmAdd的神经网络层,通过进制嵌入技术,将权重矩阵进行分解,缩减模型的参数数量。本文提出了一种基于进制嵌入和累计解码的大型模型优化方案,该方案能够有效降低模型的时间复杂度和计算成本,提升模型性能。实验结果表明,在相同的网络结构下,使用进制嵌入及累计解码的模型在解码速度和性能上均优于未使用该方案的模型。Decoding)技术的大模型优化方案。为了验证本文提出的模型优化方案,我们设计了一个实验,分别测试了在不同训练轮数下,基于EmAdd和累计解码的大模型的性能。
2023-08-23 20:34:06
115
原创 大模型EM 压缩和输出层压缩策略 和配合的loss策略
说明无论注意力机制还是其他变体,以及该累计机制,隐藏层大小都是关键,传统的em和输出头 大小都是与词表大小一比一的扩大,而进制方法则采取了几个进制位表达,很大的参数,比如9个10进制em 就能表达 1亿词表(em参数量从1亿。10*hidden 250w倍的缩小) ,而经过测试这个进制最好是与隐藏层大小相同,当然acc 定然是有一定牺牲的。但是词表的扩大弥补了,注意力的损失,尤其是短的注意力。hidden变为了4。
2023-08-20 16:47:10
77
原创 使用svd 分解的方法对神经网络模型进行压缩(能不能压缩要看秩的大小)
SVD可以将一个任意的实数矩阵A分解为三个实数矩阵U、Σ、V的乘积,其中U和V是正交矩阵,Σ是对角矩阵。然后,我们可以选择保留Σ的部分(即对角线上的奇异值),并丢弃U和V的部分,以降低矩阵的维度。在这种情况下,SVD分解得到的U和V矩阵的维度与W相同,因此无法实现压缩。然而,当矩阵是满秩时,SVD分解的维度可能大于原始权重矩阵的维度,这意味着无法通过SVD有效地压缩神经网络的权重。总之,SVD分解不一定能压缩神经网络的权重,因为在满秩的情况下,分解后的维度可能大于原始权重矩阵的维度。
2023-08-19 08:54:06
159
原创 手搓大语言模型 使用jieba分词制作词表,词表大小几十万 加强依赖性
RNN是一种天然用于解决序列问题的模型,历史信息是句子前边所有的词,使其可以捕获更长的历史信息。直观上来说,RNN网络打破了上下文窗口的限制,使用隐藏层的状态概括历史全部语境信息,对比NNLM可以捕获更长的依赖,在实验中取得了更好的效果1。自然语言模型词表越大,学习的依赖能力越长,这是因为词表中的词汇越多,模型能够表达越多的语义信息,从而捕获更长的依赖关系1。
2023-08-19 08:53:33
1349
原创 Justpy中文文档
JustPy 是一个面向对象、基于组件、无需前端编程的高级 Python Web 框架。只需几行 Python 代码,您就可以创建交互式网站,而无需任何 JavaScript 编程。JustPy 还可用于为 Python 程序创建图形用户界面。与其他网络框架不同,JustPy 没有前端/后端的区别。所有编程都在后端完成,从而带来更简单、更高效、更 Pythonic 的网络开发体验。JustPy 通过拦截前端的相关事件并将其发送到后端进行处理,从而消除了前端/后端的区别。
2023-08-09 16:51:38
128
原创 手搓 LLM (不用rnn 不用attention 完全新思路)padding 实验
注意:使用padding 或者结束词后可能会影响长度问题待进一步验证。
2023-08-06 08:59:02
406
原创 手搓 自然语言模型 异步多进程加载数据并训练
注意根据自己的计算资源调整batch_size。使用sample代码进行推理。可以调整为其他数据集。
2023-08-01 21:50:53
309
原创 手搓 自然语言模型 参数量和依赖长度表
而有相关报告证明,人类的极限是1GB的信息量,约等于5亿token,此时的参数规模要达到7万亿。而大多普通人不会记忆那么多0.1-0.5 亿token ,且如果假设前20年,那么 只有0.02-0.1token。那么是该模型的512天那里,而实际人类远远不会记住512天的内容,8天是一个正常人的极限,会不断的忘记那些没有用的内容。而隐藏层维度为0.67 亿,此时能记住,且完全注意到的字符量为1.3亿,1.3亿token。如表所示该网络如果,要达到表达一生3万天所说的内容要,参数量达到21990亿。
2023-08-01 21:31:36
322
原创 手搓 自然语言模型 各种对比数据
从上面实验数据可知 在使用方案 二的时候 ,如代码写 不断的扩大维度方可提高收敛时候的acc 上限且最高。且该网络模型可以在推理的时候如最后一幅图所示可以,进行单独解码 从而节约算力。后面两幅图中 带框的两个是两个不同的方案,不带框的是公共部分。经过测试抛弃了蓝色框的方案。
2023-07-31 20:30:09
291
原创 Just Mask and Sum 手搓 自然语言模型
经过验证或者说根本没有达到验证的地步,基本就凉了,或者说,本人不太喜欢,或者是选择语言模型是当前的任何语言模型,或者说是后期推理更消耗算力,但是有一个最大的问题是这样做,同样面临的问题是大的数据量,导致算力需求爆炸。2,实现1 的假设并不难,但是太长绝对是算力爆炸,而N-Gram为的就是省算力,而我们暂时假设,这个能够确定是某个字符的概率的序列是有限长的。上面的实现方法已经简单的证明了假设有一定的能力,预测下一个字符,但是,基于统计的模型,无论是从模型大小还是算力上都是更大的问题。
2023-07-31 00:20:08
134
原创 加速生成nlp分类任务的数据(voc t voc)
例如 ABCD生成A01B B01C A02C A03D。。。。。。。。。加速版该代码使用了多进程(multiprocessing)库来并行处理文本数据。代码中使用了Process类创建进程,并使用Manager类的list()方法创建了一个可以在多个进程间共享的列表d_list。然后,通过调用gen_data函数并传入d_list和data参数来生成数据。gen_data函数中首先将传入的data字符串转换为DataFrame对象。
2023-07-25 21:17:08
179
原创 完美提取百度首页信息+chatglm2 简单的联网
创建浏览器驱动对象:使用webdriver.Chrome()方法创建Chrome浏览器驱动对象,并通过ChromeDriverManager().install()方法安装驱动。获取搜索结果信息:通过执行JavaScript代码获取搜索结果的标题、URL和摘要信息,并将其存储到相应的列表中。构建搜索结果URL:使用quote()函数对搜索关键词进行URL编码,并拼接成百度搜索结果页面的URL。定义获取搜索结果信息的函数:创建函数get_sum(key),参数为搜索关键词。
2023-07-19 22:15:00
154
原创 music21 按照正规层级结构将midi 转为json 或者json 转为midi
它会读取一个名为"s.mid"的MIDI文件,并将其转换为一个包含乐谱数据的列表。然后,将这个列表保存为一个名为"s.json"的JSON文件。它会读取"s.json"文件中的乐谱数据,并使用music21库来生成对应的MIDI文件。最终,这个MIDI文件会保存为"s.mid"。大家好,我今天要介绍的是一个可以将MIDI文件转换为JSON格式,并且可以将JSON格式转换为MIDI文件的代码。你可以根据需要,将你的MIDI文件转换为JSON格式,进行自定义操作,并且再将JSON格式转换回MIDI文件。
2023-07-12 21:57:25
294
原创 music21 层级解析(了解次结构方可将任意曲谱与mid互相转换)
这是一个简单的示例,可以根据需要进行修改和扩展。可以使用 music21 库的其他功能来创建不同的音符、和弦、乐器等,并调整乐谱的各个方面。文件,其中包含一个乐器和多个小节。每个小节中包含四个音符或和弦,然后将小节添加到乐谱中。最后,将乐谱写入 MIDI 文件。然后,创建一系列小节,并将其添加到乐谱中。首先,通过导入 music21 库来使用它的功能。这段代码创建了一个音乐乐谱并将其保存为 MIDI。接下来,创建一个乐器对象,并将其添加到乐谱中。最后,将乐谱写入 MIDI 文件。然后,创建一个乐谱对象。
2023-07-11 22:10:44
192
原创 python 异步加载数据 提升显卡使用率(多进程共享内存)
创建三个进程对象gen_data0、gen_data1和gen_data2,分别调用get_data函数,并将共享的data和s作为参数传递给这些进程。总体而言,这段代码的目的是同时启动多个进程来生成数据,并将生成的数据传递给主进程进行训练。调用train_data(data, s)函数,用于训练数据,这个函数将使用共享的data和s作为参数。创建一个Manager对象data和一个Manager对象s,用于进程间共享数据。Manager:用于创建进程的管理器对象,用于共享数据。
2023-07-11 21:48:27
227
原创 将midi转为json后转为str进行压缩长度而后在转为json
str_to_json(data)函数首先对输入的字符串数据进行一系列替换操作,将字符串的格式调整为特定的形式。之后,将处理后的字符串数据以json格式保存到名为"a_1.json"的文件中,并返回转换后的字符串数据。json_to_str()函数首先打开一个名为"a_0.json"的json文件,并使用json.load()函数将文件内容加载为一个字典。然后,将字典中的"data"键对应的值转换为字符串,并进行一系列替换操作,将字符串的格式调整为特定的形式,并返回最终得到的字符串数据。
2023-07-09 10:53:47
220
automa 自动化工具 rpa chrome 浏览器自动化插件
2023-09-20
数据分析之道参考代码资料
2023-09-10
copy is all you need
2023-08-24
python 打包最简单方法值可移植辅助程序
2023-04-19
python 打包最简答运行辅助包
2023-04-19
chatgpt等多种免费AI工具app
2023-04-17
样板临摹练习空白格5张 零基础30天线条学习计划 临摹抓形100练 美术开笔+控笔临摹素材50张 抓型练习线稿素材40张 线描图
2023-04-16
1-精选笔刷 2-水墨毛笔 3-高级水彩 4-水粉笔刷 005-建筑景观 6-儿童插画 7-人物肌底 8-噪点纹理
2023-04-16
chatgpt 如何捞钱的例子
2023-04-09
python 游戏开发多平台引擎python 游戏开发多平台引擎 Godot4.0
2023-03-28
Godot-v3.5.2-stable-win64.exe
2023-03-28
AI 绘画魔法 法点咒语 大全 AI 绘画魔法 法点咒语 大全
2022-11-20
text to image image to image face fix muti model
2022-11-19
这个方法可以解出权重所有的解
2022-10-22
打瞌睡注意力集中与否检测 打瞌睡注意力集中与否检测
2022-10-16
声音克隆5秒克隆你的声音 (代码)
2022-10-16
个人简历模版10000+ 面试技巧各行各业的简历模版
2022-10-16
文本转图片英文版本paddle 版本
2022-09-05
智能文案数据集合智能文案数据集合智能文案数据集合智能文案数据集合智能文案数据集合智能文案数据集合
2022-07-31
人像边缘线稿数据集人像边缘线稿数据集
2022-07-11
文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像
2022-07-07
nlp 语意、义相似度计算 和 对仗计算基本覆盖所有nlp 任务评估问题
2022-06-06
中英文翻译数据集百万数据集合
2022-04-28
2019冠状病毒疾病数据收集,每天从我们的世界收集数据,用于合并和上传。国家一级的疫苗接种数据收集和汇总在一个文件中。然后,该数
2022-04-20
本数据集是mid 格式的数据集具有30万条数据
2022-03-25
MinGW-w64安装教程——著名C/C++编译器GCC的Windows版本 安装包 任意选一个压缩包解压 并将bin 添加到
2022-03-22
中文单个字音 转图(二维数据128*128)这样将3000特征的变为了128*128 = 16384 特征
2022-03-05
Python 实现ramdisk
2021-09-11
Lenovo bug我要背锅吗
2021-09-11
谁能告诉我这是谁的锅
2021-09-11
如何发射很少重量的物质到火星就能完成火星地球化
2021-09-11
TA创建的收藏夹 TA关注的收藏夹
TA关注的人