日常
东方佑
世界500强企业,算法工程师,大模型设计,炼丹
展开
-
世界上首个支持opencl 的神经网络框架
平台无关性:OpenCL是一个跨平台的开放标准,可以在多种计算设备上运行,包括CPU、GPU和FPGA等。这意味着你可以在不同的硬件平台上使用相同的代码,而不需要为每个平台开发特定的代码。开放性和可扩展性:OpenCL是一个开放的标准,用户可以轻松地实现和使用自己的OpenCL库。高性能计算:OpenCL利用GPU等并行处理器的强大计算能力,能够实现高性能的神经网络计算。总之,支持OpenCL神经网络框架可以带来平台无关性、高性能计算、灵活性和开放性等好处,能够帮助用户更好地开发和部署神经网络模型。原创 2024-01-30 14:04:01 · 286 阅读 · 0 评论 -
hash累计上文
代码然后计算并打印了重复1233次的"Hello, World!"字符串的不同部分的哈希值。它每100个字符打印一次哈希值和相应的文本部分。这段代码使用hashlib库生成给定文本的SHA256哈希值。作为输入,并返回SHA256哈希值的十六进制表示。将输入文本的编码版本更新到哈希对象中。获取哈希值的十六进制表示,并返回它。函数创建了一个SHA256哈希对象。的函数,该函数以字符串。原创 2023-12-14 21:23:20 · 100 阅读 · 0 评论 -
python RSA加密
【代码】python RSA加密。原创 2023-12-14 21:21:48 · 234 阅读 · 0 评论 -
json.loads和eval 速度对比
Python 在大数据处理下的优化(一)用json.loads比eval快10倍!原创 2023-12-11 22:15:41 · 340 阅读 · 0 评论 -
Python字典去重竟然比集合去重快速40多倍
分别使用两种不同的方法处理文件中的重复项并计算时间。其中第一个循环使用了字典的键值对特性,通过判断键是否存在来去重,第二个循环则使用了 Python 内置的。这段代码的作用是比较两种方法分别用于处理一个文件中的数据重复项的时间效率。模块用于查找匹配特定模式的文件路径名,它返回所有符合条件的文件路径列表。函数用于获取当前时间戳,两次获取的时间戳相减即为整个循环处理时间。模块是一个用于在 Python 迭代器中添加进度条的库。模块的作用是在循环时显示进度条,使得处理结果更加直观。最终输出两种处理方法的时间。原创 2023-12-10 22:30:00 · 176 阅读 · 0 评论 -
python 高速去重比list 快速
首先,通过glob匹配所有指定路径下的文件,然后遍历每个文件,使用with open语句以只读方式打开文件,并使用utf-8编码读取文件的全部内容。如果数据已存在于字典中,则不会添加。最后,再次使用with open语句以只写方式打开原文件,并使用utf-8编码将字典中的每个键写入文件中。因为字典的键是唯一的,所以写入后的文件中所有行都是唯一的,没有重复内容。该段代码使用了python中的glob和tqdm库,glob用于匹配满足某个规则的文件路径列表,tqdm用于显示进度条。原创 2023-12-10 21:23:42 · 91 阅读 · 0 评论 -
python epub文件解析
BeautifulSoup 是 Python 的一个 HTML 解析库,可以方便地从 HTML 文件或者 HTML 网页中提取数据。它能够自动解析 HTML 标记,并且可以用 Python 对解析后生成的树状结构进行遍历,搜索和修改。BeautifulSoup 能够处理不规则的 HTML 代码,并且可以处理一些常见的 HTML 标记,如 a、img、table 等。原创 2023-12-09 10:03:08 · 933 阅读 · 0 评论 -
解码2个例子
【代码】解码2个例子。原创 2023-12-07 20:29:06 · 80 阅读 · 0 评论 -
SkyPile-150B 数据下载地址
【代码】SkyPile-150B 数据下载地址。原创 2023-12-07 20:22:53 · 708 阅读 · 0 评论 -
tree_voc简单的生成
【代码】tree_voc简单的生成。原创 2023-11-30 21:17:59 · 106 阅读 · 0 评论 -
midi 文件读取与写入(python mido)
【代码】midi 文件读取与写入(python mido)原创 2023-11-30 21:14:41 · 441 阅读 · 0 评论 -
python多进程最长子序列
【代码】python多进程最长子序列。原创 2023-11-29 22:14:25 · 115 阅读 · 0 评论 -
80万条中文ChatGPT多轮对话数据集
【代码】80万条中文ChatGPT多轮对话数据集。原创 2023-11-23 21:24:46 · 1112 阅读 · 2 评论 -
中文rlhf数据集50w条数据解析
【代码】中文rlhf数据集50w条数据解析。原创 2023-11-23 21:21:57 · 642 阅读 · 0 评论 -
使用js 完成chrome web 自动化或者爬虫模版例子
检查元素的文本内容,如果含有"拆包选包",并且其中的IMG元素含有"dixiao",则会触发以下操作:点击元素,点击插线按钮,修改开关属性,点击确定插线按钮,尝试点击取消按钮。总的来说,这段代码主要为了在页面上自动执行一系列的操作,包括滚动页面、查找特定元素、点击按钮、修改属性等,并对可能出错的情况进行处理。总之,JavaScript语言和丰富的库提供了许多优势,这使得JavaScript成为一种流行的语言,用于编写爬虫。然后,通过while循环,实现向下滚动,每次滚动100的高度,并适当延迟。原创 2023-09-23 09:45:23 · 358 阅读 · 0 评论 -
数据分析 对比分析 AB测试代码实现
【代码】数据分析 对比分析 AB测试代码实现。原创 2023-09-11 19:27:49 · 252 阅读 · 0 评论 -
使用jieba 分词拆分文本的逻辑和逻辑对象并制作搜索引擎
在词性代号之前加上 “n”,可以得到与 ICTCLAS 标注集的对应关系。对于中文文本的分词和词性标注都非常精准,是中文 NLP 领域中常用的工具之一。希望这个信息对你有帮助!如果还有其他问题,请随时提问。原创 2023-09-11 19:26:56 · 233 阅读 · 0 评论 -
将text 文本字符转为像素,合成图并从图还原为文本
这段代码实现了将文本转换成图片的功能,并且可以将图片还原回原始文本。原创 2023-09-01 16:56:40 · 616 阅读 · 0 评论 -
建立文档向量模型:使用gensim Doc2Vec 进行文本相似度计算
该代码的主要功能是使用 gensim.models.Doc2Vec 库建立文档向量模型,并用该模型计算和查询新文档的相似文档。训练模型:使用 gensim.models.Doc2Vec 类训练文档向量模型,并设置了向量维度 vector_size =保存模型:使用 pandas 库将训练好的模型保存为名为 doc2vec.pandas_pickle 的文件,方便之后使用。准备数据:在代码中,准备了一个名为 documents 的文档集合,包含了三个示例文档。在代码中,计算了和新文档最相似的两个文档。原创 2023-08-31 20:09:39 · 928 阅读 · 0 评论 -
使用gensim 训练模型并加载模型并推理计算搜索
【代码】使用gensim 训练模型并加载模型并推理计算搜索。原创 2023-08-31 20:08:46 · 339 阅读 · 0 评论 -
使用jieba 和pandas 手搓 搜索引擎
【代码】使用jieba 和pandas 手搓 搜索引擎。原创 2023-08-30 11:15:01 · 249 阅读 · 0 评论 -
jieba 加whooh 构建自己本地数据库的搜索引擎
【代码】jieba 加whooh 构建自己本地数据库的搜索引擎。原创 2023-08-30 11:14:24 · 1167 阅读 · 0 评论 -
paddle.load与pandas.read_pickle的速度对比(分别在有gpu 何无gpu 对比)
paddle无论是在任何平台速度比pandas慢很多,分析可知这个属于IO操作,GPU并不参与。原创 2023-08-29 21:16:48 · 249 阅读 · 0 评论 -
最大内积搜索(MIPS) 使用python 举例 三种AIGC生成对比
然后,我们检查排序后的第一个向量的内积是否大于epsilon倍的q的欧几里得范数乘以该向量的欧几里得范数。最大内积搜索(Maximal Inner Product Search,MIPS)是一种在向量空间中搜索具有最大内积的向量的方法。请注意,这只是一个简单的示例,实际应用中可能需要更高效的数据结构和算法来处理大规模的向量搜索。在上面的代码中,我们首先导入了NumPy库,这是一个用于科学计算的Python库。在上述示例中,我们首先定义了一个数据库的向量集合和一个查询向量。函数找到内积最大的向量的索引。原创 2023-08-25 23:00:11 · 730 阅读 · 0 评论 -
手搓 LLM (不用rnn 不用attention 完全新思路)padding 实验
注意:使用padding 或者结束词后可能会影响长度问题待进一步验证。原创 2023-08-06 08:59:02 · 507 阅读 · 0 评论 -
手搓 自然语言模型 各种对比数据
从上面实验数据可知 在使用方案 二的时候 ,如代码写 不断的扩大维度方可提高收敛时候的acc 上限且最高。且该网络模型可以在推理的时候如最后一幅图所示可以,进行单独解码 从而节约算力。后面两幅图中 带框的两个是两个不同的方案,不带框的是公共部分。经过测试抛弃了蓝色框的方案。原创 2023-07-31 20:30:09 · 399 阅读 · 0 评论 -
加速生成nlp分类任务的数据(voc t voc)
例如 ABCD生成A01B B01C A02C A03D。。。。。。。。。加速版该代码使用了多进程(multiprocessing)库来并行处理文本数据。代码中使用了Process类创建进程,并使用Manager类的list()方法创建了一个可以在多个进程间共享的列表d_list。然后,通过调用gen_data函数并传入d_list和data参数来生成数据。gen_data函数中首先将传入的data字符串转换为DataFrame对象。原创 2023-07-25 21:17:08 · 266 阅读 · 0 评论 -
music21 按照正规层级结构将midi 转为json 或者json 转为midi
它会读取一个名为"s.mid"的MIDI文件,并将其转换为一个包含乐谱数据的列表。然后,将这个列表保存为一个名为"s.json"的JSON文件。它会读取"s.json"文件中的乐谱数据,并使用music21库来生成对应的MIDI文件。最终,这个MIDI文件会保存为"s.mid"。大家好,我今天要介绍的是一个可以将MIDI文件转换为JSON格式,并且可以将JSON格式转换为MIDI文件的代码。你可以根据需要,将你的MIDI文件转换为JSON格式,进行自定义操作,并且再将JSON格式转换回MIDI文件。原创 2023-07-12 21:57:25 · 807 阅读 · 6 评论 -
music21 层级解析(了解次结构方可将任意曲谱与mid互相转换)
这是一个简单的示例,可以根据需要进行修改和扩展。可以使用 music21 库的其他功能来创建不同的音符、和弦、乐器等,并调整乐谱的各个方面。文件,其中包含一个乐器和多个小节。每个小节中包含四个音符或和弦,然后将小节添加到乐谱中。最后,将乐谱写入 MIDI 文件。然后,创建一系列小节,并将其添加到乐谱中。首先,通过导入 music21 库来使用它的功能。这段代码创建了一个音乐乐谱并将其保存为 MIDI。接下来,创建一个乐器对象,并将其添加到乐谱中。最后,将乐谱写入 MIDI 文件。然后,创建一个乐谱对象。原创 2023-07-11 22:10:44 · 649 阅读 · 0 评论 -
python 异步加载数据 提升显卡使用率(多进程共享内存)
创建三个进程对象gen_data0、gen_data1和gen_data2,分别调用get_data函数,并将共享的data和s作为参数传递给这些进程。总体而言,这段代码的目的是同时启动多个进程来生成数据,并将生成的数据传递给主进程进行训练。调用train_data(data, s)函数,用于训练数据,这个函数将使用共享的data和s作为参数。创建一个Manager对象data和一个Manager对象s,用于进程间共享数据。Manager:用于创建进程的管理器对象,用于共享数据。原创 2023-07-11 21:48:27 · 479 阅读 · 2 评论 -
将midi转为json后转为str进行压缩长度而后在转为json
str_to_json(data)函数首先对输入的字符串数据进行一系列替换操作,将字符串的格式调整为特定的形式。之后,将处理后的字符串数据以json格式保存到名为"a_1.json"的文件中,并返回转换后的字符串数据。json_to_str()函数首先打开一个名为"a_0.json"的json文件,并使用json.load()函数将文件内容加载为一个字典。然后,将字典中的"data"键对应的值转换为字符串,并进行一系列替换操作,将字符串的格式调整为特定的形式,并返回最终得到的字符串数据。原创 2023-07-09 10:53:47 · 349 阅读 · 0 评论 -
json和midi 文件互相转换
以上是将MIDI文件转换为JSON格式的乐谱数据以及将JSON格式的乐谱数据解析为MIDI文件的代码实现。包括music21用于处理音乐数据,json用于读取和写入JSON文件,以及Fraction用于处理音符的持续时间。将MIDI文件转换为JSON格式的乐谱数据并保存到文件中。然后,编写一个函数将MIDI文件转换为JSON格式的乐谱数据并保存到文件中。最后,调用函数将MIDI文件转换为JSON格式的乐谱数据并保存到文件中。接下来,编写一个函数将JSON格式的乐谱数据转换为MIDI文件。原创 2023-07-09 09:55:09 · 1006 阅读 · 2 评论 -
python 异步循环监听实例子
由于LLM肯能等待很长时间如果这个过程不使用异步的话 将造成的问题是想在等待的时候进行其他交互操作 时转圈圈, 使用异步操作后方可,流畅无阻。除此之外,asyncio还提供了很多其它的异步I/O操作函数,如异步网络编程、进程池、队列、定时器等等,可以帮助我们快速编写高效的异步程序。asyncio.ensure_future(future):将一个协程或Future对象注册到事件循环中,等待执行。Python内置的异步协程模块为asyncio,它提供了一种基于事件循环的异步I/O操作方式。原创 2023-06-27 21:46:10 · 668 阅读 · 0 评论 -
观察着效应与AIGC
量子坍缩波函数的系数C_n表示系统的状态在不同本征态上的概率分布,而深度神经网络的参数W和b表示网络学习到的特征和权重,用于对输入数据进行分类或预测。其中,y表示网络的输出,x_i表示输入的特征向量的第i个元素,W_i表示第i个神经元的权重参数,b表示偏置参数,f表示激活函数。对于一个连续谱的系统,本征态可以用一个实数参数的函数表示。其中,Ψ表示波函数,C_n表示系数,φ_n表示归一化的本征态,∑表示对所有的n求和。其中,y表示网络的输出,x表示网络的输入,W和b表示网络的参数,f表示激活函数。原创 2023-05-12 22:09:07 · 668 阅读 · 1 评论 -
chatgpt将带来的是精神消费品生产的第一次工业革命
chatgpt不仅将流水线工业革命革命到物质生产上,同时也将其革命到人类一直自认为机器无法替代的创作性工作上,甚至是精神消费品上,这是一个前所未有的突破。在chatgpt的帮助下,人类能够将绘画、文学等创作过程进行科学性拆分,分为人工可监督打分的步骤,甚至可以提前写好评判标准,这样机器就能不断地生产和制作出精神消费品。通过机器学习技术的加持,chatgpt不仅能够模拟人类的思考方式,更可以帮助人们生成更加贴近人类喜好和观念的精神消费品。它将减少人类的空闲时间和生产成本,同时也加速了人类社会的进步和发展。原创 2023-05-02 10:57:22 · 108 阅读 · 0 评论 -
chatgpt修仙论道欢迎指正
比如内丹修炼中的“养气”、“炼心”、“祛病”、“长生”、“通道”等,功夫修炼中的“内力”、“外功”、“身法”、“心法”等。书中提到了“心、气、形、神”四个方面需要统一调节:心指的是内心的平静和意识的清醒,气指的是内气的充足和流通,形指的是身体的健康和柔韧,神指的是心灵的神韵和感知能力。炁体源流是道家的一个概念,指的是世间万物的原始能量来源,是道家炼丹术中的重要概念。炁体在修炼过程中,可以提高人的能量和运动性能,增强身体的免疫力和抵抗力,并且可以让人更加敏锐地感知周围的环境和事物。原创 2023-05-01 20:14:59 · 115 阅读 · 0 评论 -
AIGC图像应该如何描述
第一个流程图是一个节点1连接着5个不同的节点,这5个节点是与图片关键词相关的位置、形状、颜色和名称,他们在第二个流程图中被展开,分为了不同的子节点。这个图表主要是展示了将图片的描述(关键词)转化为具体的位置、形状、颜色和名称等元素,同时展示了这些元素之间的联系和细分。在图像处理中,通过对形状、位置、颜色等信息进行处理,可以实现图像的识别、分类、重构等功能。通过对颜色信息的处理,可以实现对图像的颜色增强、颜色分割等功能。因此,形状、位置、颜色等信息是图像信息的重要组成部分,它们共同构成了图像的特征。原创 2023-04-30 15:24:35 · 1084 阅读 · 1 评论 -
如何使用chatgpt写一个完整2048
这里使用了Python标准库中的pickle模块来进行对象的序列化和反序列化,将游戏状态存储为pickle文件。同时也提供了清空存档状态的功能。以上是可能需要开发的主要模块和功能。当然,具体实现方式可能因人而异,可以根据自己的编码习惯和技能水平进行调整。在上面的示例代码中,我们首先使用Pygame mixer初始化音效库,然后使用。你也可以根据需要自行添加其他声效音乐模块功能。方法加载了一个方块移动音效文件,并在需要时使用。以列举的方式一一列举出每个模块每个功能。应该如何设计各个模块各个模块的功能。原创 2023-04-27 20:51:18 · 1313 阅读 · 0 评论 -
AIGC生产工艺流程之games生产流程
一般来说,游戏生产流程包括游戏设计、策划、程序开发、美术制作、音效制作等等环节,具体流程可以根据不同公司和项目有所差异。程序开发负责实现游戏的功能和逻辑,美术制作则包含角色、场景、特效等各种美术素材的制作;总的来说,“games生产流程”是指将游戏设计、策划、程序开发、美术制作、音效制作等各种环节有序、高效地协同工作,并最终制作出一款满足玩家需求、游戏玩法合理、画面好看、音效专业的优秀游戏的过程。需要注意的是,这些步骤并不是按照线性方式进行的,而是通过不同之间的“同样的单词相同的元素”的联系结合在一起的。原创 2023-04-27 20:50:08 · 1999 阅读 · 0 评论 -
app 开发流程梳理
通过以上步骤,能够准确地理解 App 的需求和用户使用场景,有效避免手机 App 开发中的问题,确保 App 的质量和用户满意度。持续集成和部署:建立持续集成和部署的流程,例如利用 CI/CD 工具自动编译、测试、打包和部署,加快上线时间和保证代码的稳定性。测试和调试:在每个模块开发完成后,进行单元测试,并与其他模块进行集成测试,确保整个 App 的稳定性和各个模块之间的协调运行。随着 App 的不断更新和升级,需要在上线后及时进行相应的迭代和更新,修复问题和提供新功能,保持 App 的市场竞争力。原创 2023-04-27 20:49:41 · 1919 阅读 · 0 评论