- 博客(136)
- 收藏
- 关注
原创 Buzz语音转文字安装使用(含Whisper模型下载)
第一执行翻译任务会在用户安装目录下载模型,如果是下载时间过长,Windows版本下载路径为:C:\Users\AppData\Local\Buzz\Buzz\Cache ,表示用户目录,大概率会失败报错,这里可以使用离线的模型包。复制解压出来的模型,复制和替换C:\Users\AppData\Local\Buzz\Buzz\Cache 下的模型。下载完成后有五个类别的模型,大小和名字一样,越大效果越强,当然也取决于硬件,运算量越大,耗时越长。Large 模型耗时。
2024-07-31 07:12:36 585
原创 如何利用 Selenium 对已打开的浏览器进行爬虫
这时候,我们可以通过一个已经开启的浏览器完成登录,然后利用程序继续操作这个浏览器,即可以完成数据的爬取了。这里需要单独指定一个文件夹目录(不存在会新建),如果不显式指定该参数,运行会污染浏览器默认的配置文件。根据 Chrome 浏览器版本下载对应的 ChromeDriver 驱动移动到某一个目录下。假设上面开启的浏览器打开百度首页,我们现在编写一个简单的程序来继续操作上面的浏览器。注意的是,这里需要利用 debuggerAddress 指定浏览器的地址及端口号。右键查看 Chrome 浏览器的完整路径。
2024-07-23 23:50:35 588
原创 Redis原子计数器incr,防止并发请求
在一些对高并发请求有限制的系统或者功能里,比如说秒杀活动,或者一些网站返回的当前用户过多,请稍后尝试。这些都是通过对同一时刻请求数量进行了限制,一般用作对后台系统的保护,防止系统因为过大的流量冲击而崩溃。对于系统崩溃带来的后果,显然还是拒绝一部分请求更能被维护者所接受。而在各种限流中,除了系统自身设计的带锁机制的计数器外,利用Redis实现显然是一种既高效安全又便捷方便的方式。
2024-07-12 16:07:05 659
原创 Python 连接clickhouse常用的三种方式
ClickHouse是一个开源的分布式列式数据库管理系统,它被设计用于存储和分析大规模数据。Python是一种流行的编程语言,凭借其简洁的语法和丰富的生态系统,成为了数据处理和分析的首选语言之一。在Python中,我们可以使用多种方式与ClickHouse进行连接并操作数据。本文将详细介绍Python连接ClickHouse的三种常用方式,分别是使用clickhouse-driver、clickhouse-sqlalchemy和pyclickhouse库。
2024-06-21 16:49:30 2195
原创 layUI 后台界面Tab选项卡--右键关闭其他Tab和全部Tab选项卡
layui的tab选项卡,没有关闭所有和关闭其他的功能,只能自定义做一个了。
2024-06-20 09:27:42 245
原创 本地部署Ollama+qwen本地大语言模型Web交互界面
Ollama WebUI 已经更名为 Open WebUI.Open WebUI是一个可扩展、功能丰富且用户友好的自托管 WebUI,旨在完全离线操作。它支持各种 LLM 运行程序,包括 Ollama 和 OpenAI 兼容的 API。Ollama WebUI 是一个革命性的 LLM 本地部署框架,具有类似 ChatGPT 的 Web 界面。让我们为您的 Ollama 部署的 LLM 提供类似 ChatGPT Web UI 的界面,只需按照以下 5 个步骤开始行动吧。
2024-06-18 14:21:36 1299
原创 如何配置docker通过代理服务器拉取镜像
如果 docker 所在的环境是通过代理服务器和互联网连通的,那么需要一番配置才能让 docker 正常从外网正常拉取镜像。然而仅仅通过配置环境变量的方法是不够的。本文结合已有文档,介绍如何配置代理服务器能使docker正常拉取镜像。
2024-06-18 14:11:10 2040 2
原创 Rasa.3X中使用lookup实现对实体的抽取
rasa3.6的DIETClassifier实体提取器不准确,使用RegexEntityExtractor的实体提取器替换。
2024-05-31 16:36:39 484
原创 nginx的Connection refused
出现这个问题,一开始以为是server节点挂掉,但是查看了下server运行正常;这个错误是突然间爆发大量的错误,查看了相关nginx和服务器监控系统,看到连接数突增。可以说明在高负载下,系统响应变慢,并出现超时或失误失败情况,TIME_WAIT积压。发现WAIT数量过高,TCP连接断开后,会以TIME_WAIT状态保留一定的时间,然后才会释放端口。当并发请求过多的时候,就会产生大量的TIME_WAIT状态的连接,无法及时断开的话,会占用大量的端口资源和服务器资源,导致很多连接被拒绝了。
2024-05-26 11:35:29 661
原创 Docker安装OnlyOffice
工作需要,多人在线编辑同一文档,找了一圈发现onlyoffice满足需求,于是使用docker安装了社区版本。下面记录下安装过程。
2024-05-25 15:47:54 860
原创 SpringBoot 集成 Nebula
工作需求,开始了解图数据库,经过工具选型,最终选择nebula graph,并集成到springboot,java 环境下如何对 Nebula Graph 进行操作,本文整理下过程。
2024-05-25 09:15:48 657
原创 elasticsearch索引如何删除字段
有两种方法可以删除 Elasticsearch 索引中的字段。您可以使用 Mapping API 更新索引映射并删除字段。以下是删除字段的步骤:1. 通过获取当前的索引映射。2. 编辑映射,删除要删除的字段。3. 将更新的映射传回 Elasticsearch,使用以下请求。例如,如果您要从名为my-index的索引中删除age字段。
2024-05-14 17:58:16 2534
原创 复制粘贴插件——clipboard.js的使用
是一款使用简单的粘贴复制插件,它不依赖于Flash或其他框架,在github拥有3万多颗星可见其优秀程度,介绍如何使用它,以备存。
2024-05-10 16:19:48 2021
原创 elasticsearch使用more_like_this实现基于内容的推荐
min_doc_freq:一个词语最少在多少篇文档中出现,小于这个值的词会将被忽略,默认是无限制。max_doc_freq:一个词语最多在多少篇文档中出现,大于这个值的词会将被忽略,默认是无限制。min_term_freq:一篇文档中一个词语至少出现次数,小于这个值的词将被忽略,默认是2。percent_terms_to_match:匹配项(term)的百分比,默认是0.3。max_query_terms:一条查询语句中允许最多查询词语的个数,默认是25。boost_terms:设置词语权重,默认是1。
2024-04-12 10:33:57 540
原创 Elasticsearch(ES) 添加/更新映射
通过 Elasticsearch API 可以向索引(Index) 添加文档类型(Type), 或者向文档类型(Type) 中添加/更新字段(Field)。
2024-04-12 09:42:19 731
原创 用Transformers 库来完成中文文本摘要任务
虽然 Hugging Face 已经提供了很多文本摘要模型,但是它们大部分只能处理英文,因此本文将微调一个多语言文本摘要模型用于完成中文摘要:为新浪微博短新闻生成摘要。
2024-04-09 10:21:40 974
原创 Nginx 报错 504 Gateway Time-out 的解决方法
重启 Nginx 和 php-fpm,报错信息基本上就可以解决。原因是程序执行时间过长,导致请求超时。首先,尽可能地优化程序代码的执行时间。修改 nginx.conf 配置文件。修改 php.ini 配置文件。其次,修改配置文件。
2024-03-15 14:04:16 810
转载 Python的yield和next是什么?为什么常用来读取数据(DataLoader)
Python的yield和next是什么?为什么常用来读取数据(DataLoader)
2024-03-12 23:01:23 216 1
原创 PyTorch-RNN
首先介绍一下什么是rnn,rnn特别擅长处理序列类型的数据,因为他是一个循环的结构一个序列的数据依次进入网络A,网络A循环的往后传递。这就是RNN的基本结构类型。而最早的RNN模型,序列依次进入网络中,之前进入序列的数据会保存信息而对后面的数据产生影响,所以RNN有着记忆的特性,而同时越前面的数据进入序列的时间越早,所以对后面的数据的影响也就越弱,简而言之就是一个数据会更大程度受到其临近数据的影响。但是我们很有可能需要更长时间之前的信息,而这个能力传统的RNN特别弱,于是有了LSTM这个变体。
2024-03-05 12:42:49 677
原创 PyTorch-神经网络
神经网络,这也是深度学习的基石,所谓的深度学习,也可以理解为很深层的神经网络。说起这里,有一个小段子,神经网络曾经被打入了冷宫,因为SVM派的崛起,SVM不了解的同学可以去google一下,中文叫支持向量机,因为其有着完备的数学解释,并且之前神经网络运算复杂等问题,导致神经网络停步不前,这个时候任何以神经网络为题目的论文都发不出去,反向传播算法的鼻祖hinton为了解决这个问题,于是就想到了用深度学习为题目。段子说完,接下来开始我们的简单神经网络。
2024-03-03 10:14:10 1157
原创 PyTorch – 逻辑回归
如何在pytorch里面用最小二乘来拟合一些离散的点,这一节我们将开始简单的logistic回归,介绍图像分类问题,使用的数据是手写字体数据集MNIST
2024-02-17 19:06:13 1326 1
原创 linux中用date命令获取昨天、明天或多天前后的日期
,一些脚本中会调用明天,或者昨天,或更多天前的日期,本文将叙述讲述用date命令实现时间的显示。在Linux系统中用mandate -d 查询的参数说的比较模糊
2023-11-07 17:12:26 2154
原创 在 Ubuntu 22.04安装配置 Ansible
Ansible是今年来越来越火的一款开源运维自动化工具,通过Ansible可以实现运维自动化,提高运维工程师的工作效率,减少人为失误。Ansible通过本身集成的非常丰富的模块可以实现各种管理任务,其自带模块超过上千个。更为重要的是,它操作非常简单,即使小白也可以轻松上手,但它提供的功能又非常丰富,在运维领域,几乎可以做任何事
2023-10-17 16:34:02 1671
原创 Ubuntu扩容lvm空间
安装 Ubuntu Server 的时候磁盘分区选择了 LVM,所以系统根目录默认占用磁盘大小只有4G,在安装软件时发现磁盘空间4G已经无法满足,/dev/mapper/ubuntu--vg-ubuntu--lv 磁盘空间不足报警,所以需要利用 LVM 对磁盘进行扩容Linux。
2023-09-06 21:21:20 1377
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人