自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(203)
  • 收藏
  • 关注

原创 置顶写作工具

Markdown 特殊符号及数学公式整理

2024-02-20 21:21:29 152 1

原创 MoneyPrinterTurbo 安装使用流程

进入 MoneyPrinterTurbo 目录,复制 config.example.toml 并重命名为 config.toml,随后打开 config.toml。pexels_api_keys 和 moonshot_api_key 需要到对应官网申请。完成后打开 docker 客户端,点击8501:8501 即可跳转到webui页面。在 docker 安装目录执行以下命令显示隐藏文件夹。给出一段视频文案即可开始生成视频。执行命令打包,可能需要较长时间。试用前需要开启 VPN。

2024-09-17 11:07:57 330

原创 Mac快捷键

【代码】Mac快捷键。

2024-09-16 00:27:24 104

原创 ast.literal_eval 将字符串 ‘[NaN,NaN,0.0]‘ 转为列表时报错:ValueError: malformed node or string on line 1: <ast.N

kimi prompt: ast.literal_eval 将字符串 ‘[NaN,NaN,0.0]’ 转为列表时报错:ValueError: malformed node or string on line 1: <ast.Name object at 0x0000029929149B50>使用 json.loads() 替代,因为 JSON 支持 NaN 值的序列化和反序列化。

2024-07-19 17:28:24 282

原创 spark.createDataFrame(pandas_df)遇错 AttributeError: ‘DataFrame‘ object has no attribute ‘iteritems‘.

解决方案 安装2.0以下版本的 pandas

2024-06-23 23:11:58 266

原创 Python字典对象是可变对象

在Python中,字典是可变对象,它们的值可以是任何类型,包括另一个字典或者列表等可变对象。当你在字典中将一个字典赋值给一个键时,你实际上是将这个字典对象的引用赋给了这个键,而不是创建了该字典的一个副本

2024-06-07 10:21:01 226

原创 python 注册环境变量

【代码】python 注册环境变量。

2024-04-11 17:53:56 142 1

原创 保存带 numpy.ndarray 的 dataframe

使用 pickle,import picklesave_path = "./result/tmp/text_embedding_df.pkl"with open(save_path, 'wb') as f: pickle.dump(df, f)

2024-03-14 11:21:25 239

原创 pandas: groupby() 分组求向量平均值

data.groupby('Pclass')['Fare'].mean()data.groupby('Pclass').mean()['Fare']对向量求均值,向量类型需为 numpy.ndarray,不能为list会报错

2024-03-12 12:00:03 674

原创 python使用 concurrent.futures 启动并行任务

以相同的方式工作,它使用多进程而不是多线程作为工作池。顾名思义,创建一个可以提交作业的线程池。

2024-02-28 11:17:50 426

原创 No module named ‘transformers.models.auto.tokenization_auto‘

重启kernel

2024-02-26 18:31:25 323

原创 超平面介绍

(1) 超平面是指n维线性空间中维度为n-1的子空间。它可以把线性空间分割成不相交的两部分。比如二维空间中,一条直线是一维的,它把平面分成了两部分;三维空间中,一个平面是二维的,它把空间分成了两部分。(2) 法向量是指垂直于超平面的向量。为 N 维向量,b为标量,表示超平面于原点之间的距离。(垂直于超平面) ,已知超平面中的一点。,需要求它到超平面之间的距离。,对于超平面中的任意一点。

2024-02-20 20:58:52 1506

原创 BPE原理及代码简单演示

BPE(Byte pair encoding)是对字节编码,BPE 算法是在 UTF-8 编码的字符串上运行的,所以它是“字节级”的。 理论上任何 UTF-8 编码的字符串都可以统一使用 BPE

2024-02-19 18:26:32 693

原创 tqdm和zip一起用进度条不显示的解决方法

for a,b in tqdm(zip(x, y), total=len(x)): # 添加一个参数 total 即可

2024-01-31 10:12:17 403

原创 sklearn 计算 tfidf 得到每个词分数

sklearn 计算 tfidf 得到每个词分数

2024-01-30 16:51:06 584

原创 GPT-SoVITS 测试

AutoDL地址:https://www.codewithgpu.com/i/RVC-Boss/GPT-SoVITS/GPT-SoVITS-Official。Blili 地址:https://www.bilibili.com/video/BV12g4y1m7Uw。GitHub地址:https://github.com/RVC-Boss/GPT-SoVITS。step2 创建好实例之后,进入命令行,输入命令。step4 完成之后,点击 tab 栏,随后选择公网地址打开,进入Web页面。step1 打开地址。

2024-01-27 20:34:37 3175

原创 拷贝 hugging face 仓库到 colab

【代码】拷贝 hugging face 仓库到 colab。

2024-01-16 11:24:54 791

原创 df 计算同一列时间差(差分pandas.diff())

【代码】df 计算同一列时间差(差分pandas.diff())

2024-01-15 10:14:20 638

原创 Amphion tts(Text to Speech) 语音合成

强烈推荐使用带 GPU 的 Ubuntu 或 Centos 系统运行,可以租一个比较便宜的机器实例运行

2023-12-29 16:55:00 714

原创 fill-in-the-middle(FIM) 实现与简单应用

传统训练的 GPT 模型只能根据前文内容预测后文内容,但有些应用比如代码生成器,需要我们给出上文和下文,使模型可以预测中间的内容,传统训练的 GPT 就不能完成这类任务。FIM 是一种新的训练技巧,使得 GPT 类模型能够根据上下问填充中间部分。调换 suffix 与 middle 位置,此为 PSM 模式。通过添加特殊 token, 使得训练数据包含上下文内容。传统训练的 GPT 只能根据上文预测下文。使用 FIM 训练的能够正确填充中间部分。另外还有 SPM 模型。

2023-12-20 21:11:30 2052

原创 本地运行大语言模型并可视化(Ollama+big-AGI方案)

其中 Ollama 目前只支持 Mac,LM Studio目前支持 Mac 和 Windows。该服务启动在 3000 端口:http://localhost:3000/ ,直接在浏览器中打开,界面窗口中 vendor 记得选择 ollama。命令行终端运行命令 ollama run llama2,该命令会下载 llama2 模型,随后运行这个模型,现在我们就可以在终端对话了。执行 npm install 可能报错: zsh: command not found: npm。查看是否安装成功:npm -v。

2023-12-16 18:20:55 3102

原创 numpy.memmap 用法与注意事项

当处理大数组时,内存可能不够用。numpy 提供了一个函数 np.memmap() 让我们可以处理大数组。np.memmap() 可以读取大磁盘文件中的一小段到内存,所以它占内存较小。

2023-12-12 16:55:08 1778

原创 jupyter notebook中添加内核kernel

进入对应路径,可以看到一个 kernel.json 文件,里面记录了 kernel 对应的 python 执行路径。jupyter kernelspec list 命令之后可以看到每个内核配置路径。step5 重启 jupyter notebook 可以选择需要使用的内核。step2 若没有kernel,则需要安装 kernel。step1 检查环境中是否有kernel。step3 查看已添加的内核。step4 添加内核。

2023-12-05 11:37:07 3037

原创 nanoGPT 中 generate 函数

函数位置 model.py。

2023-11-29 13:42:49 408

原创 pandas 将DataFrame 转为txt文本,去除引号问题

此方法会导致原文中多 escapechar=’ ’ 这种空格。

2023-11-27 15:39:36 905

原创 graphviz安装

【代码】graphviz安装。

2023-11-26 11:15:35 392

原创 python3.7升级为更高版本并迁移库

【代码】python3.7升级为更高版本并迁移库。

2023-11-22 14:28:59 837

翻译 深度学习术语:词嵌入 Word Embedding

word2vec 有两种方法:CBOW (Continuous Bag-Of-Words) 和 Skip-gramSkip-gram方法就是取句子中固定单词数量(如 5),使用中间单词去预测周围 4 个单词。输入是 one-hot 向量,经过隐层线性层,随后经过softmax层(结果值为正,加起来为 1)输出预测结果。中间的隐藏层权重即为嵌入矩阵embedding matrix,也即查找表。嵌入矩阵的大小为单词总数词向量维度,假如单词总数为 10000,并且隐藏神经元为 300。

2023-11-21 22:01:55 98

原创 MySQL 查询数据并导出为 csv

【代码】MySQL 查询数据并导出为 scsv。

2023-11-13 14:55:15 381

原创 deeplog中输出某个 event 的概率

step2 DeepLog 类中添加如下函数。step1 找到安装包位置。

2023-11-09 16:22:20 212

原创 deeplog打印损失

找到安装包 torchtrain, 打开module.py文件删除文件夹。

2023-11-01 16:39:19 186

原创 python 打印与去除不可见字符 \x00

其中strip()只能去掉\r,\n,\t,无法去掉\x00。所以 text.strip()==“boot_1__normal/” 两者不相等。

2023-10-31 16:09:42 852

原创 Tesseract OCR 报错 PermissionError: [WinError 5] 拒绝访问

【代码】Tesseract OCR 报错 PermissionError: [WinError 5] 拒绝访问。

2023-10-30 09:32:05 498

原创 如何开通 Medium会员

首先你需要一张可以支付的外国卡选择开通 WildCard 卡,优点:1 无需上传身份证件,支付宝认证即可2 可以使用国内手机号注册3 可以使用支付宝、微信充值一步一步按步骤操作即可,在邀请码中输入(HONGSHU1),可以享受开卡 88 折优惠(不填就没有优惠哦)。开卡之后,最低充值 20美元。

2023-10-27 16:06:44 606

原创 pandas读取json文件,文件中包含多个json对象

可以使用 jsonlines 库,读取多个json对象的json文件。, 内容如下,里面包含多个 json 对象。直接使用 json 读取会报错。也可以使用 pandas 读取。

2023-10-26 10:58:04 542

原创 linux下安装 Chrome 和 chromedriver 以及 selenium webdriver 使用

https://googlechromelabs.github.io/chrome-for-testing/ (推荐,包含最新稳定版)现在就可以使用 selenium 的 webdriver 爬取内容了。chromedriver对应下载地址。

2023-10-25 17:04:33 6158

原创 MySQL表导出

【代码】MySQL表导出。

2023-10-25 14:03:13 213

原创 scrapy typeerror: attrs() got an unexpected keyword argument ‘eq‘

scrapy typeerror: attrs() got an unexpected keyword argument 'eq'

2023-10-25 13:56:13 320

原创 Jupyter Notebook 设置黑色背景主题

【代码】Jupyter Notebook 设置黑色背景主题。

2023-10-19 14:07:16 2058

原创 python使用PyPDF2包:pdf转doc

使用 PyPDF2 转 doc 文档

2023-09-25 10:51:11 675

No module named ‘transformers.models.auto.tokenization-auto‘

gpt2分词器离线资源

2024-02-26

https://github.com/PlayVoice/so-vits-svc 预训练文件

https://github.com/PlayVoice/so-vits-svc 预训练文件

2023-03-14

公开 wav 格式音频,针对音乐信息提取

公开 wav 格式音频

2022-11-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除