自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(782)
  • 资源 (1)
  • 收藏
  • 关注

原创 大数据向量检索的细节问题

基于亿级高纬度向量数据的检索

2023-08-21 17:55:45 770

原创 stable-diffusion-webui版本更迭

stable-diffusion-webui安装记录之第二次踩坑记录。

2023-07-19 15:04:48 1293

原创 基于清华chatglm-6b模型的向量化检索问答

基于本地知识库的智能问答。

2023-06-13 16:18:35 1530

原创 stable-diffusion-webui服务器centos部署实践(成功)

stable-diffusion-webui部署使用,生成更优秀的图片。

2023-05-22 11:52:37 1832 1

原创 优秀图片生成参数-stable-diffusion-webui

stable-diffusion-webui优秀生图来了。

2023-05-18 19:57:08 806

原创 stable- diffusion新版本V2效果有提升吗?

stable- diffusion V2 就丝滑好用了吗?

2023-04-21 19:50:38 1533

原创 对话大模型体验(最后附源码)

chatgpt国内版本初步上线(仅供参考)

2023-03-15 15:42:43 1190 1

原创 sentence Bert解读及代码示例

SBERT论文详解并附代码。STS任务

2022-12-08 23:24:37 1272 4

原创 Bert论文解读及相关代码实践

bert论文解读及微调方法

2022-12-08 12:31:29 765

原创 信息抽取/实体关系抽取之UIE

飞酱NLP之信息抽取,知识抽取,关系抽取UIE

2022-12-06 16:34:12 4911 2

原创 fastTEXT论文解读并附实例代码

fastTEXT如何做压缩的

2022-12-03 16:39:53 907

原创 NLP基本业务范围之二

NLP基本业务:阅读理解,因果模型,文本生成,翻译

2022-12-02 15:12:20 1314

原创 NLP基本业务范围

NLP基本业务,纠错,掩蔽词MASK,NER,情感分析,文本摘要

2022-11-30 19:19:52 736

原创 fastTEXT入门自然语言处理NLP

fastTEXT自然语言处理,词向量,文本分类

2022-11-27 23:11:29 857

原创 告诸位技术同胞大佬!!!

近日,发现其他网站大量复制粘贴我这里的博文,既不注明原文链接,也没有注明作者,这样的网站毫无底线,完全是流氓网站。鉴于这种情况的出现,本人今天以后的博文全部只能粉丝可见。下面我要挨个投诉,申诉,直到删除复制的我的博文,不限于起诉维权,反正一无所有,咱就死磕到底!!!For Video Recommendation in Deep learning QQ Group 277356808For Speech, Image, Videoin deep learning ...

2020-06-05 10:12:14 1224 1

原创 单节点集群数据写入测试

**节点角色**:具有 `cdhilmrstw` 角色,表示该节点是一个协调节点、数据节点、热节点、冷节点、机器学习节点、主节点、远程集群客户端节点、专用主节点、转换节点和写节点。- **示例**:`node-1` 表示节点的名称为 `node-1`。- **示例**:`0.72` 表示 1 分钟的负载平均值为 0.72。- **示例**:`0.63` 表示 5 分钟的负载平均值为 0.63。- **示例**:`5` 表示 CPU 使用率为 5%。- **示例**:`*` 表示该节点是当前的主节点。

2024-09-30 18:20:28 285

原创 单节点集群的设置及数据写入

结合 `gateway.expected_nodes` 和 `gateway.recover_after_time` 设置项,可以定义集群在节点故障或重启后的恢复策略,确保集群在恢复过程中有足够的节点参与,从而提高数据恢复的可靠性和稳定性。在单节点集群中,设置 `gateway.recover_after_nodes` 通常是没有意义的,因为单节点集群只有一个节点,无法满足 `gateway.recover_after_nodes` 的条件。确保 Elasticsearch 已经启动。

2024-09-30 15:54:55 215

原创 elasticsearch 写入新数据测试(二)

当 Elasticsearch 集群的健康状态为 `RED` 时,首先需要解决导致集群不健康的问题。当 Elasticsearch 集群的健康状态为 `RED` 时,这意味着集群中存在一些问题,导致某些数据不可用,集群功能不完整。一旦你解决了导致集群健康状态为 `RED` 的问题,集群的健康状态应该会自动恢复为 `GREEN` 或 `YELLOW`。如果集群状态为 `yellow` 或 `red`,你需要等待集群完全启动。- **解决方法**:检查集群状态,确保所有节点都已加入集群并且集群状态正常。

2024-09-30 15:47:02 651

原创 elasticsearch单个node节点写入数据

我以为没有明确的设置就没有账号密码了,发现还是不行,竟然是非root的用户名,当初./bin/elasticsearch时创建的非sudo用户,elasticsearch 用户名(不是python虚拟环境的用户名),密码另外设置了,此时也是elasticsearch的密码,现在成了es的密码,奇怪。一旦你启用了安全功能,Elasticsearch 会提供一些内置用户,如 `elastic`、`kibana`、`logstash_system` 等,这些用户默认没有密码,你需要手动为其设置密码。

2024-09-30 14:40:08 525

原创 [2024-09-29T16:26:59,602][ERROR][o.e.b.ElasticsearchUncaughtExceptionHandler] [node-1] uncaught exce

通过查看完整的错误日志和堆栈跟踪信息,你可以确定具体的错误原因,并采取相应的解决措施。通过检查端口占用情况、终止占用端口的进程或更改 Elasticsearch 的端口配置,你可以解决 `BindException: Address already in use` 错误,并成功启动 Elasticsearch 服务。你可以在 `elasticsearch.yml` 配置文件中修改 `http.port` 配置项。找到占用端口的进程后,你可以选择终止该进程或更改 Elasticsearch 的端口配置。

2024-09-30 11:23:00 49

原创 [2024-09-29T16:13:54,471][INFO ][o.e.b.BootstrapChecks ] [node-1] bound or publishing to a non-lo

假设你有三个节点,IP 地址分别为 `192.168.1.100`、`192.168.1.101` 和 `192.168.1.102`,节点名称分别为 `node-1`、`node-2` 和 `node-3`。- **确保所有节点配置一致**:确保所有节点的 `elasticsearch.yml` 配置文件中包含相同的 `discovery.seed_hosts` 和 `cluster.initial_master_nodes` 配置。注意修改 `elasticsearch.yml`文件即可,

2024-09-30 11:20:15 377

原创 my_sudo is not in the sudoers file. This incident will be reported.

如果你在尝试使用 `sudo` 命令时收到 `my_sudo is not in the sudoers file. This incident will be reported.` 错误,这意味着当前用户没有被授权使用 `sudo` 命令。确保你信任该用户,并且知道他们在系统上执行的操作。- 使用 root 用户编辑 `/etc/sudoers` 文件,将你的用户添加到 `sudoers` 文件中。5. 退出 root 用户,然后使用 `my_sudo` 用户登录,再次尝试使用 `sudo` 命令。

2024-09-30 11:12:00 151

原创 failed to obtain node locks, tried [[/data/xulianming/elasticsearch-7.10.2/data]] with lock id [0];

通过检查数据目录权限、确保每个节点使用不同的数据目录、增加 `node.max_local_storage_nodes` 的值,以及删除残留的锁文件,可以解决 `failed to obtain node locks` 错误。- **解决方法**:确保每个节点使用不同的数据目录。- **解决方法**:确保 Elasticsearch 用户对数据目录具有写权限。**节点1的 `elasticsearch.yml` 配置:****节点2的 `elasticsearch.yml` 配置:**

2024-09-30 11:05:57 44

原创 elastic search 后端启动成功标志(二)

其他数据,(此时尚未写入数据)采用网页请求,返回如下数据,

2024-09-29 18:13:17 374

原创 elastic search 后端启动成功标志

一个大坑是./bin/elasticsearch 运行时有日志,我特么以为是卡死到这里了,后来发现这个玩意不能停,一停服务就停了,类似于Docker启动tf-serving这个玩意。可以加-d进行后台启动服务。拜拜,明天再更其他的。

2024-09-29 18:04:32 444

原创 can not run elasticsearch as root

在 Linux 和 macOS 系统上,Elasticsearch 不允许以 `root` 用户身份运行。通过以上步骤,你已经成功创建了一个新的用户和组来运行 Elasticsearch,并确保 Elasticsearch 不会以 `root` 用户身份运行。如果你希望 Elasticsearch 在系统启动时自动启动,你可以将其配置为服务。为了解决这个问题,你需要创建一个新的用户和组来运行 Elasticsearch。#### 1.2 创建一个新的用户并将其添加到组中。

2024-09-25 16:28:04 199

原创 java安装更新jdk11后设置环境JAVA_HOME

在安装 Java JDK 后,为了确保系统能够正确识别 Java 环境,你需要设置 `JAVA_HOME` 环境变量。首先,你需要找到 Java 的安装路径。你可以通过编辑 `~/.bashrc` 或 `~/.bash_profile` 文件来设置 `JAVA_HOME` 环境变量。6. 在“变量值”字段中输入 Java 的安装路径,例如 `C:\Program Files\Java\jdk-11`。你应该看到 Java 的版本信息,表示 `JAVA_HOME` 和 `PATH` 环境变量设置正确。

2024-09-25 16:19:43 229

原创 elastic search后端安装方法(服务端)

Elasticsearch 启动后,默认会在 `http://localhost:9200` 上运行。访问 [Elasticsearch 下载页面](https://www.elastic.co/cn/downloads/elasticsearch),选择适合你操作系统的版本并下载。要在本地安装 Elasticsearch,你需要先安装 Java JDK。Elasticsearch 的配置文件位于 `config` 目录下,主要的配置文件是 `elasticsearch.yml`。

2024-09-25 15:57:07 706

原创 elastic search 向量检索的过程包括数据写入与查询

Score: 2.0, Data: {'content': '我被打了怎么办', 'dense_vector': [1, 2, 3, 23, 2, 3, 2], 'jid': '0dn9ocndso93wnf', 'text': 'others message'}以下是一个完整的 Python 示例,展示了如何将数据写入 Elasticsearch 并进行向量检索查询。"dense_vector": {"type": "dense_vector", "dims": 7}, # 7 维向量。

2024-09-25 15:43:10 253

原创 elastic Search 初步之向量检索的数据写入及检索查询

Elasticsearch 从 7.3 版本开始引入了向量检索功能,支持通过向量字段进行相似度搜索。以下是实现向量检索的步骤和方案,包括 Python 和 Java 版本的代码示例。首先,需要在 Elasticsearch 中创建一个索引,并定义一个向量字段。向量字段可以是 `dense_vector` 类型。使用 `script_score` 查询来进行向量检索。#### 1. 最低实现向量检索的 ES 版本。#### 2. 创建索引并定义向量字段。插入包含向量字段的数据。#### 4. 向量检索。

2024-09-25 15:35:43 319

原创 tar.gz 文件压缩与解压shell实现

解压 .tar.gz 文件在 Shell 中是一个常见的任务,可以使用 tar 命令来完成。• 解压到指定目录:tar -zxvf filename.tar.gz -C /path/to/destination。• 创建 .tar.gz 文件:tar -zcvf archive.tar.gz /path/to/directory。• 解压 .tar.gz 文件:tar -zxvf filename.tar.gz。• 列出文件内容:tar -ztvf filename.tar.gz。

2024-09-24 14:20:23 423

原创 elasticsearch 向量检索 ann

在这个例子中,我们首先创建了一个名为my_vectors的索引,并定义了一个名为my_vector的dense_vector字段,用于存储5维向量。然后,我们向索引中添加了两个文档,每个文档包含一个向量。最后,我们执行了一个向量搜索,使用余弦相似度(cosine similarity)来评估与查询向量的相似度。在Elasticsearch中,你可以创建一个包含向量的文档类型,并使用dense_vector字段类型来索引这些向量。向索引中添加文档,每个文档包含一个或多个向量。

2024-09-24 10:09:51 345

原创 Coronal Mass Ejection日冕物质抛射

• 磁场重联:太阳日冕中的磁场线在某些区域可能发生断裂和重新连接,释放出巨大的能量。• 1859年的卡林顿事件:这是历史上记录到的最强的地磁暴事件,由一次强大的CME引起,导致全球范围内的电报系统故障和极光现象。• 结构:CME 通常呈现为一个复杂的等离子体云,包含大量的电子、质子和其他离子,以及嵌入其中的磁场结构。• 磁通绳:在太阳日冕中形成的磁通绳(一种扭曲的磁场结构)可能失去稳定性,导致CME的发生。• 磁场不稳定:太阳磁场的某些区域可能变得不稳定,导致磁场结构的崩溃和物质的抛射。

2024-09-23 15:41:36 525

原创 空间天气的知识点

• 空间天气预报中心:如美国国家海洋和大气管理局(NOAA)的空间天气预报中心,提供实时的空间天气预报和警报。• 日冕物质抛射(CMEs):太阳日冕中大规模的等离子体和磁场结构的抛射,可以携带大量的物质和能量进入太空。• 电离层:地球大气中的一部分,主要由太阳辐射电离的大气分子组成,对无线电通信和导航系统有重要影响。• 磁层:地球周围的磁场区域,能够捕获和偏转太阳风中的带电粒子,保护地球免受高能粒子的直接冲击。• 太阳耀斑:太阳表面突然释放大量能量的现象,伴随强烈的电磁辐射和高能粒子的喷发。

2024-09-23 15:37:04 347

原创 从一组数(int整型)中找到出现次数最多的数字,并给出出现的次数,python实现

• 使用 counter.most_common(1) 方法找到出现次数最多的数字及其出现次数。most_common(1) 返回一个列表,其中包含一个元组,元组的第一个元素是出现次数最多的数字,第二个元素是其出现次数。要从一组整数中找到出现次数最多的数字及其出现的次数,可以使用 Python 中的 collections 模块中的 Counter 类。print(f"出现次数最多的数字是 {most_common_number},出现了 {frequency} 次")# 找到出现次数最多的数字。

2024-09-20 14:56:51 519

原创 sigmoid函数

1. 输出范围:Sigmoid 函数的输出范围在 (0, 1) 之间,这使得它非常适合用于二分类任务,可以将输出解释为概率。3. 饱和区:当输入 ( x ) 的绝对值较大时,Sigmoid 函数的梯度接近于零,这可能导致梯度消失问题。运行上述代码后,你会看到 Sigmoid 函数的图像,它是一个 S 形曲线,输出范围在 (0, 1) 之间。• 神经网络:在神经网络中,Sigmoid 函数作为激活函数,将神经元的输入转换为输出。• sigmoid(x):接收一个输入值 ( x ),可以是标量或数组。

2024-09-20 14:37:39 454

原创 损失函数的理解与解释

](https://upload.wikimedia.org/wikipedia/commons/thumb/3/3b/Mean_absolute_error.svg/1200px-Mean_absolute_error.svg.png)[](https://upload.wikimedia.org/wikipedia/commons/thumb/4/47/Mean_squared_error.svg/1200px-Mean_squared_error.svg.png)对于大误差,它使用 MAE。

2024-09-20 14:26:54 311

原创 损失函数python实现

y_pred = np.clip(y_pred, 1e-15, 1 - 1e-15) # 防止 log(0)y_pred = np.clip(y_pred, 1e-15, 1 - 1e-15) # 防止 log(0)p = np.clip(p, 1e-15, 1 - 1e-15) # 防止 log(0)q = np.clip(q, 1e-15, 1 - 1e-15) # 防止 log(0):param y_true: 真实标签,形状为 (N,),值为 -1 或 1。

2024-09-20 14:25:22 477

原创 mongoDB 读取数据python版本实现

接下来,我将展示如何使用给定的MongoDB连接字符串来连接数据库,并从一个集合中读取数据。要使用Python从MongoDB读取数据,你可以使用pymongo库。• 如果你在实际应用中使用这些敏感信息(如密码),请考虑使用环境变量或其他安全方式来存储和管理这些信息,以避免泄露风险。• 确保在运行此代码前,你的MongoDB服务是启动状态,并且网络配置允许从你的机器访问该MongoDB实例。• connection_string:这是你的MongoDB连接字符串,包含了认证信息和服务器地址。

2024-09-18 15:28:35 792

原创 Python文本数据切分及HTML数据处理

a class="lawregu_link" lawregu-detail lawreguid="8dbb3944e7943feda57a0a71be705910" lawregutiao="第四十八条">《中华人民共和国妇女权益保障法》第四十八条</a>规定,用人单位不得因结婚、怀孕、产假、哺乳等情形,辞退女职工或单方解除劳动合同。注意,这里的示例是基于中文的句号来切分的,对于其他语言可能需要调整正则表达式的匹配规则。在这个例子中,我们要移除的是形如<a ...>的HTML标签。# 移除HTML标签。

2024-09-14 14:06:39 285

brew安装shell文件,直接bash执行即可

brew安装shell文件,直接bash执行即可,mac电脑专用,其他系统不支持哈。

2024-07-17

河南省⼯业学校校区⼯作⼈员试题卷子往年题库

源于互联网,自己下载的,其中内容应该靠谱。

2023-12-28

stable-diffusion-webui启动文件

stable-diffusion-webui启动文件,用于启动环境中的参数输入,与cmd参数输入相结合,其他参数修改,包括pip,git环境修改,git的环境请手动下载,这里注释掉了。

2023-07-19

requirements.txt of the stable-diffusion-webui

stable-diffusion-webui的pip 安装记录,直接由pip freeze而来,比较全面,而且基本上都是必须的环境,多余的环境很少。直接pip install -r the_file.txt 即可,相当方便。

2023-07-19

stable-diffusion-webui安装包,亲测有效

stable-diffusion-webui安装包,亲测有效。非常可行的包,不过环境需要自己安装的,安装一下吧。有些环境在repo里安装即可。

2023-07-19

stable-diffusion-webui启动文件launch.py

用于启动stable-diffusion-webui,修改后的脚本,第一版本,可行,启动无误。无需全局环境,可以像其他库一样设置自己的虚拟python环境,非常nice的,省时省力。

2023-07-19

diel-data数据集,用来实验与验证GCN模型的,推荐算法中的GCN模型,当然也是最初的分类模型

diel_data数据集,用来实验与验证GCN模型的,推荐算法中的GCN模型,当然也是最初的分类模型,该模型数据的难点在于构建网络节点数据,具体可以看下GCN中的解读。或者参考我的博文GCN的解读。

2023-06-22

Avazu推荐算法必备数据集,无论是召回还是排序都是必备的数据集

Avazu推荐算法必备数据集,无论是召回还是排序都是必备的数据集。 版本x1,即可用于推荐算法中的指标对比,也可以用来检验自己的算法是否超过前人的研究成果,是用来发paper的必备测试数据集,比如DeepFm,din,等,都可以用来测试,实践。不妨下载来看看数据格式,这里面的数据集是大多数的通用的数据。 另外,数据集具有验证集和测试集,可用来训练中和训练后进行测试,当然也可使用其中一个作为测试。 推荐算法,模型必备数据集,wide&deep,LR,DCN,图模型,等。

2023-06-22

cora-v2数据集,用于推荐算法中的GCN进行测试

cora_v2数据集,用于推荐算法中的GCN进行测试 也可以用于推荐算法中其他方法的测试,作为经典的数据集,具有对比的作用。

2023-06-22

python库peft安装包

可以采用pip安装的peft安装包,包括makefile文件,此库非常有用,依赖库有torch及python,一些版本号可以自己修改,具体可查看里面的文件。该安装包用于大模型微调使用,是必不可少的依赖。

2023-05-05

stable-diffusion生成二次元的图片

CV大模型GPT,行业顶尖模型,stable- diffusion,业界认可模型,完全开源,需要GPU大显卡资源,一版32G效果会更好。

2023-04-14

自然语言处理用的二分类微调数据SST,可以参考huggingface来具体操作训练

自然语言处理,预训练模型微调专用数据,SST2 文本分类,情感分类等等类似下游任务都可以用。

2023-02-14

用于NLP预训练模型的微调,应用场景包括language model 和text generation 自然语言处理必备资源

英文维基文本,包含训练集,测试集,验证集。 来吧,下载训练自己的模型,微调下吧。

2023-02-14

attention is all you need解读及pytorch代码

Attention is all you need 解读及详细代码,每个模块都有注释,代码详细易懂。哈佛出品,值得阅读。Transformer最基本的结构,也是BERT的基本结构,NLP和推荐都需要用到。

2022-12-06

gcn/gat模型中预处理数据用的脚本 如何把数据整成gcn/gat模型需要的数据格式 process

图模型中数据预处理所用的脚本, 包括dgl,gcn,gat都是用的这个预处理过程。

2022-12-06

sample_movielens_ratings.txt

采样的movielens数据集,一般用来推荐模型中的测试。标椎格式txt可以尝试下自己的新模型,这种数据一般用于有评分数据的模型,用于矩阵分解之类的模型。如果是点击与否的模型则不适用。推荐算法模型可以查看我的相关博文,关注即可。多谢点赞。也可以加群获取更多资讯。群里有各种大佬,都是算法专家。

2022-09-17

视频中的音频提取test.mp3

视频中音频提取技术,ffmpeg是底层实现工具,这是最基本的,采用py处理得到,简单方便,但实时性有点差,取决于个人所用工具。

2019-11-30

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除