- 博客(77)
- 资源 (42)
- 收藏
- 关注
原创 大模型在推荐领域中的运用-总结
实验表明,RecMind在不同的推荐任务中优于现有的基于LLM的推荐方法,并在与最近需要完全预训练的P5模型竞争的任务中取得了有竞争力的性能。将语言模型视为特征提取器,将物品和用户的原始信息(比如商品的标题/属性/类目、用户的点击序列/上下文)设计成prompt,输入到LLM中并输出相应的embedding或者语义summary信息,后续作为特征或者通过LLM语义挖掘用户潜在的兴趣偏好,最终将这些整合到推荐系统的决策过程中。由于LLM模型返回的是通用知识信息,存在与站内的类目体系无法完全对应的情况。
2024-05-30 11:24:41 2105 3
原创 【强化学习篇】on-policy 和 off-policy 的区别
然而,一旦policy更新参数后,这时两个policy是不一样了,之前采样数据data则不能继续使用了,需要重新再采样数据,这样效率很低。从on-policy梯度和off-policy梯度对比,很明显的是off-policy跟环境互动的是 θ‘ ,而不是θ,θ‘ 采样出来的数据与待更新的θ没有关系。KL 散度并不是θ和θ‘参数的距离,而是行为上的距离,即给同一个state的时候,action几率分布之间的差距。这里有个假设,pθ(st)和pθ′(st)分布是差不多的,比值接近1,可以略去。
2023-09-13 16:39:17 1685
原创 ubuntu下安装nccl具体教程
使用paddlepaddle框架进行多卡训练时报错:Traceback (most recent call last): File "train.py", line 210, in <module> do_train() File "train.py", line 91, in do_train paddle.distributed.init_parallel_env() File "/home/th/anaconda3/envs/paddle/lib/pytho...
2022-04-10 15:29:45 11666 3
原创 plt保存图片时会被截断下面一部分(解决方法)
使用import matplotlib.pyplot as plt的plt.savefig保存热力图出现下面x轴标签被截断一部分。
2022-03-13 18:55:34 3056
原创 The current process just got forked. Disabling parallelism to avoid deadlocks.To disable this warnin
The current process just got forked. Disabling parallelism to avoid deadlocks...To disable this warning, please explicitly set TOKENIZERS_PARALLELISM=(true | false)
2022-03-09 10:51:27 7250 2
原创 导入matplotlib.pyplot as plt画图问题Matplotlib created a temporary config/cache directory at /tmp/matplotl
Matplotlib created a temporary config/cache directory at /tmp/matplotlib-4c7itqfv because the default path (/home/xx/.config/matplotlib) is not a writable directory; it is highly recommended to set the MPLCONFIGDIR environment variable to a writable direct
2022-03-09 10:24:03 4113
转载 词向量研究-GloVe词向量原理详解-通俗易懂
转载-原文:https://zhuanlan.zhihu.com/p/42073620概述GloVe:Global Vectors。模型输入:语料库 corpus模型输出:每个词的表示向量论文链接:https://aclanthology.org/D14-1162.pdf基本思想要讲GloVe模型的思想方法,我们先介绍两个其他方法:一个是基于奇异值分解(SVD)的LSA算法,该方法对term-document矩阵(矩阵的每个元素为tf-idf)进行奇异值分解,从而得到te..
2021-09-18 10:39:11 2616
原创 NLP领域中文对话系统数据集总结(有下载地址)
一、豆瓣多轮对话数据集1、简介:测试数据包含 1000 个对话上下文,对于每个上下文,创建 10 个响应作为候选。正确的响应意味着响应可以自然地回复给定上下文的消息。每对收到三个标签,大多数标签被视为最终决定。2、数据格式:标签 \t 对话话语(由 \t 分割)\t 响应二、KdConv
2021-06-30 20:22:34 21167 6
原创 中文语音语料调研
中文语音数据集小调研许多开源语音语料库都可以从openslr下载。一、ST-CMDS简介:ST-CMDS是由一个AI数据公司发布的中文语音数据集,包含10万余条语音文件,大约100余小时的语音数据。数据内容以平时的网上语音聊天和智能语音控制语句为主,855个不同说话者,同时有男声和女声,适合多种场景下使用。下载:http://openslr.org/38/二、thchs30简介:thchs30是由清华大学语音与语言技术中心2015年发布的开源中文语音数据集。一共30 小时, 完全免费
2021-06-29 17:25:57 3048
转载 git commit 代码提交规范
git commit 代码提交规范一、为什么需要制定提交规范?在团队协作开发时,每个人提交代码时都会写 commit message。每个人都有自己的书写风格,翻看我们组的git log, 可以说是五花八门,十分不利于阅读和维护。一般来说,大厂都有一套的自己的提交规范,尤其是在一些大型开源项目中,commit message 都是十分一致的。因此,我们需要制定统一标准,促使团队形成一致的代码提交风格,更好的提高工作效率,成为一名有追求的工程师。二、业界通用的 git 提交规范有哪些?
2021-06-07 10:14:40 983
转载 KL散度、JS散度、Wasserstein距离
1. KL散度KL散度又称为相对熵,信息散度,信息增益。KL散度是是两个概率分布PP和QQ 之间差别的非对称性的度量。 KL散度是用来 度量使用基于QQ的编码来编码来自PP的样本平均所需的额外的位元数。 典型情况下,PP表示数据的真实分布,QQ表示数据的理论分布,模型分布,或PP的近似分布。定义如下:因为对数函数是凸函数,所以KL散度的值为非负数。有时会将KL散度称为KL距离,但它并不满足距离的性质:KL散度不是对称的,即DKL(P||Q)≠DKL(...
2021-06-02 09:26:54 860
原创 信息抽取之事件抽取任务技术调研笔记
事件抽取(Event Extraction)一、事件抽取分两大类事件识别和抽取从描述事件信息的文本中识别并抽取出事件信息并以结构化的形式呈现出来,包括发生的时间、地点、参与角色以及与之相关的动作或者状态的改变。事件检测和追踪事件检测与追踪旨在将文本新闻流按照其报道的事件进行组织,为传统媒体多种来源的新闻监控提供核心技术,以便让用户了解新闻及其发展。具体而言,事件发现与跟踪包括三个主要任务:分割,发现和跟踪,将新闻文本分解为事件, 发现新的(不可预见的)事件,并跟踪以前报道事件的发展。
2020-11-30 17:56:29 6892 3
原创 get_encoders() got an unexpected keyword argument ‘use_adapter‘
运行环境:tensorflow-gpu == 1.14.0keras==2.2.4keras-bert==0.69.0使用keras-bert的加载bert预训练模型时报错:原因分析:这是keras-transformer版本问题,pip安装keras-bert==0.69.0时自动安装了keras-transformer ==0.38.0(pip list可以查看一下版本)keras-transformer版本改成0.31.0就可以了解决步骤:1. 卸...
2020-11-30 10:03:27 2397 1
原创 Leetcode 42题接雨水的解题思路以及C++、java、python实现
Leetcode42. 接雨水题目描述:给定n 个非负整数表示每个宽度为 1 的柱子的高度图,计算按此排列的柱子,下雨之后能接多少雨水。示例 1:输入:height = [0,1,0,2,1,0,1,3,2,1,2,1]输出:6解释:上面是由数组 [0,1,0,2,1,0,1,3,2,1,2,1] 表示的高度图,在这种情况下,可以接 6 个单位的雨水(蓝色部分表示雨水)。示例 2:输入:height = [4,2,0,3,2,5]输出:9解题思路:官方解法:对于...
2020-11-26 20:16:09 307
原创 Leetcode 11题-盛最多水的容器的解题思路以及C++、java、python实现
Leetcode 11题-盛最多水的容器题目描述:给你 n 个非负整数 a1,a2,...,an,每个数代表坐标中的一个点(i,ai) 。在坐标内画 n 条垂直线,垂直线 i的两个端点分别为(i,ai) 和 (i, 0) 。找出其中的两条线,使得它们与x轴共同构成的容器可以容纳最多的水。说明:你不能倾斜容器。示例 1:输入:[1,8,6,2,5,4,8,3,7]输出:49解释:图中垂直线代表输入数组 [1,8,6,2,5,4,8,3,7]。在此情况下,容器能够容纳...
2020-11-20 11:30:09 283
原创 Bert,Albert,Roberta,XLNet的中英文预训练模型下载网址及教程
自然语言处理的各大热门的中英文预训练模型下载网址,包含了Bert,Albert, Roberta, XLNet等模型的base和large、tensorflow和pytorch版本的预训练模型。https://huggingface.co/models以下载tensorflow版本的bert的中文预训练模型为例点击红框中的bert-base-chinese接着点击上图红框中的选项,就会有下图的文件这里我们下载的是tensorflow版本的,所以pytorch版本的文件可.
2020-11-19 17:58:10 9056 1
原创 Leetcode 88题.合并两个有序数组的解题思路以及C++、java、python实现
Leetcode 88题.合并两个有序数组题目描述:给你两个有序整数数组nums1 和 nums2,请你将 nums2 合并到nums1中,使 nums1 成为一个有序数组。说明:初始化nums1 和 nums2 的元素数量分别为m 和 n 。你可以假设nums1有足够的空间(空间大小大于或等于m + n)来保存 nums2 中的元素。示例:输入:nums1 = [1,2,3,0,0,0], m = 3nums2 = [2,5,6], n ...
2020-11-19 10:24:56 226
原创 Leetcode 66题 加一 解题思路以及C++、java、python实现
Leetcode 66题 加一题目描述:给定一个由 整数 组成的 非空 数组所表示的非负整数,在该数的基础上加一。最高位数字存放在数组的首位, 数组中每个元素只存储单个数字。你可以假设除了整数 0 之外,这个整数不会以零开头。解题思路:从数组最后一位开始遍历,加1后不等于10(即最后一位不是9),当前位置now的数值就直接替换加1后的结果并返回数组。如果等于10,当前位置now的数值设为0,如果当前位置now不是数组第一位(即now != 0),遍历位置向前移动1。如果当前.
2020-11-18 10:41:47 297
原创 Leetcode 283题 移动零的解题思路以及C++、java、python实现
Leetcode 283题 移动零(双指针思想)题目描述:给定一个数组nums,编写一个函数将所有0移动到数组的末尾,同时保持非零元素的相对顺序。示例:输入: [0,1,0,3,12]输出: [1,3,12,0,0]说明:必须在原数组上操作,不能拷贝额外的数组。 尽量减少操作次数。解题思路:双指针解法:慢指针low指向非零元素的尾标,快指针fast遍历整个数组,快指针fast若遇到非零元素,则进行与慢指针交换元素。快指针fast若遇到零,则加1往前遍历。C++实...
2020-11-17 14:00:48 203
原创 elasticsearch 在 python 中的增删改查,批量入库操作以及各种查询的详细使用demo(github可获取源代码)
elasticsearch 在 python 中的使用demogithub网址可获取源代码实现增删改查, 以及批量入库, match、multi_match和复合查询、helpers scan查询方法。更多查询方法以及代码实现请查看Python-ElasticSearch搜索查询的全部详解一、运行条件:1.elasticsearch安装elasticsearch在ubuntu中的docker安装与启动,非常简单。https://blog.csdn.net/Thanours/artic
2020-11-17 10:36:28 536 1
原创 Leetcode 删除排序数组中的重复项-解题思路-C++、java、python实现
Leetcode 26题 删除排序数组中的重复项(双指针思想)题目描述:给定一个排序数组,你需要在 原地 删除重复出现的元素,使得每个元素只出现一次,返回移除后数组的新长度。不要使用额外的数组空间,你必须在 原地 修改输入数组 并在使用 O(1) 额外空间的条件下完成。示例1:给定数组 nums = [1,1,2],函数应该返回新的长度 2, 并且原数组 nums 的前两个元素被修改为 1, 2。你不需要考虑数组中超出新长度后面的元素。示例2:给定 nums = [...
2020-11-16 11:22:44 165
原创 Leetcode 三数之和-解题思路以及C++、java、python实现
15. 三数之和题目描述:给你一个包含 n 个整数的数组nums,判断nums中是否存在三个元素 a,b,c ,使得a + b + c = 0 ?请你找出所有满足条件且不重复的三元组。示例:给定数组 nums = [-1, 0, 1, 2, -1, -4],满足要求的三元组集合为:[ [-1, 0, 1], [-1, -1, 2]]解题思路(双指针解法):三数之和转变成两数之和: a + b + c = 0 转成 a + b = -c。具体步骤:1. 先对...
2020-11-15 16:10:14 376
原创 Leetcode 两数之和 解题思路以及C++、java、python实现
1.两数之和(双指针思想)题目描述:给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那 两个 整数,并返回他们的数组下标。你可以假设每种输入只会对应一个答案。但是,数组中同一个元素不能使用两遍。Leetcode官网两数之和解题思路:建立键值对map:key为补数:target-nums[i],value为nums的下标 i 。即为 key=vlaue:target-nums[i]=i。然后遍历nums数组,如果nums[i] 已在map中的key中,
2020-11-15 11:24:19 252
转载 Python-ElasticSearch搜索查询的全部详解
查询所有数据 1 2 3 4 5 6 7 8 9 # 搜索所有数据 es.search(index="my_index",doc_type="test_type") # 或者 body = { "query":{ "match_all":{} } } es.search(index="my_index",doc_type="test_...
2020-11-11 16:23:07 3809
原创 查看elasticsearch所有索引的文档数量以及占用存储空间大小
条件:elasticsearch 7.9.3ubuntu 18.04elasticsearch已在ubuntu系统中启动运行中。在ubuntu终端命令行中运行:curl -X GET localhost:9200/_cat/indices?v红框依次是:索引名称,索引中文档总数, 索引占用磁盘空间大小,主分片占用磁盘空间大小。...
2020-11-11 15:50:44 32927
原创 docker容器中的Elasticsearch如何添加ik分词器
一、安装Elasticsearch的docker(1)拉取elasticsearch镜像docker pull docker.elastic.co/elasticsearch/elasticsearch:7.9.3这条命令是拉取最新版本的elasticsearch,如果需要安装其他版本的可以到这个官方网址查看各个版本的镜像名与标签。(2)启动elasticsearch拉取镜像回来,就可以run一个容器启动elasticsearchdocker run -p 9200:9200 -
2020-11-11 15:15:44 1240
原创 RequestError(400, ‘mapper_parsing_exception‘, ‘No handler for type [string] declared on field [url]‘
python使用elasticsearch设置mapping时报错:elasticsearch.exceptions.RequestError: RequestError(400, 'mapper_parsing_exception', 'No handler for type [string] declared on field [url]')mappings = { "include_type_name ": True, "properties": {
2020-11-11 11:55:50 3445
原创 中文自然语言处理领域语料库获取
github的一个收集NLP领域各大任务的大型语料库包含NLP 10任务,持续扩充中可用来预训练模型,以及训练词向量。https://github.com/brigh10tmart/nlp_chinese_corpus/
2020-11-10 11:42:06 550
原创 elasticsearch在ubuntu中的docker安装,以及python中的使用-增删改查以及批量存储(封装类,可以直接使用)
一、elasticsearch安装elasticsearch采用标准的restful API,也就是使用Client/Server连接方式,因此我们要在宿主机安装elasticsearch。各种系统如Ubuntu, macos, window, CentOS等官方安装教程这里我是在ubuntu上进行安装的。最为简单的安装使用docker安装了。以下介绍的是docker安装官方教程网址:https://www.elastic.co/guide/en/elasticsearch/refere
2020-11-10 10:22:16 318
原创 NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver.
原本nvidia-smi正常,重启服务器ubuntu系统后,使用nvidia-smi报错显示:NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.造成出错原因:重启服务器ubuntu系统,一般系统会自动升级内核,因此可能会造成ubuntu的内核版本太高,与显卡驱动不
2020-10-30 10:07:25 347
转载 dokcer的常用命令笔记
dokcer服务操作:启动docker服务:service docker start查看docker运行状态:service docker status关闭docker进程:service docker stop重启docker服务:service docker restartdocker镜像操作:查看镜像:docker images镜像保存: docker save python_pytorch -o /usr/xxx/data/python_pytorch.tar镜像载入
2020-10-29 11:40:49 241
原创 pycharm如何连接远程服务器的docker容器进行运行和调试代码(二)
pycharm如何连接远程服务器的docker容器有两种方法:第一种:pycharm通过ssh连接已在运行中的docker容器第二种:pycharm连接docker镜像,pycharm运行代码再自动创建容器本文是第二种方法的教程,第一种请点击以上的链接条件:(1)pycharm专业版,社区版没有这个功能(2)安装好docekr服务的远程服务器,可以是ubuntu和CenterOS(3)docker服务器已经准备环境的docker镜像一、远程服务器上配置docker远程服务.
2020-10-25 21:50:30 11899 6
原创 pycharm如何连接远程服务器的docker容器进行运行和调试代码(一)
pycharm如何连接远程服务器的docker容器有两种方法:第一种:pycharm通过ssh连接已在运行中的docker容器第二种:pycharm连接docker镜像,pycharm运行代码再自动创建容器本文是第一种方法的教程,第二种请点击以上的链接条件:(1)准备好pycharm专业版,社区版没有连接远程服务器的功能(2)远程服务器ubuntu,已安装好docker一、配置远程服务器的docker容器1. 启动并运行交互式容器docker run -it --nam
2020-10-25 11:51:21 15029 21
原创 Dockerfile中的命令详解
Dockerfile中的命令详解:https://www.runoob.com/docker/docker-dockerfile.htmlFROM:定制的镜像都是基于 FROM 的镜像,这里的 nginx 就是定制需要的基础镜像。后续的操作都是基于 nginx。RUN:用于执行后面跟着的命令行命令。有以下俩种格式: shell 格式: RUN <命令行命令> # <命令行命令> 等同于,在终端操作的 shell 命令。 exe...
2020-10-09 11:24:46 280
原创 Chinese Word Vectors 中文词向量(可获取)
github地址https://github.com/Embedding/Chinese-Word-Vectors
2020-10-09 09:43:59 1872 1
原创 docker容器常用命令详解
参考docker菜鸟教程1. docker启动运行一个容器:docker run ubuntu:15.10 /bin/echo "Hello world"解释:ubuntu:15.10 镜像名 /bin/echo 在容器中运行的命令 "Hello world" 上述命令输出内容2. docker 启动并运行交互式容器docker run -i -t ubuntu:15.10 /bin/bash-t: 在新容器内指定一个伪终端或终端。-i: 允许...
2020-10-05 00:09:42 944
原创 ubuntu安装docker详细教程以及配置阿里云镜像加速
ubuntu环境:Distributor ID: UbuntuDescription: Ubuntu 16.04.2 LTSRelease: 16.04Codename: xenial以下命令可查看ubuntu版本:sudo lsb_release -a参考安装教程:docker官网:https://docs.docker.com/engine/install/B站狂神docker教程视频:https://www.bilibili.com/vid...
2020-10-05 00:04:27 1254 1
原创 原本nvidia-smi正常,重启服务器ubuntu系统后,使用nvidia-smi报错(切换linux内核版本)
使用nvidia-smi报错显示:NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.造成出错原因:ubuntu的内核版本太高,与显卡驱动不匹配。因为显卡驱动...
2020-03-13 11:16:20 2728
原创 ubuntu如何进行切换内核版本全教程
环境:ubuntu 16.04 server服务器重新启动后,内核可能被自动更新,这就会造成开机后服务器有些服务无法正常使用。例如:查看显卡状态:nvidia-smi 会有报错NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NV...
2020-03-13 11:10:06 37723 11
pip-9.0.1-py2.py3-none-any.whl
2018-07-29
pycharm community-2018安装包
2018-07-29
曹雁锋,张先伟. 《一种强连通判定算法》论文pdf文件
2018-07-23
ATK-HC05 蓝牙串口模块
2018-07-22
函数的强连通性判定实现代码
2018-07-19
PDF转word、word转PDF转换器
2018-05-13
8*8、16*16、32*32点阵LED字模生成工具
2018-04-29
教务管理系统javaweb项目
2018-03-24
HBuilder.7.5.1.安装包(亲测完全可用)
2018-02-27
eclipse-jee-win32-x86_64安装包(下载回来解压直接打开可用)
2018-02-27
W3School中文版完整手册(2017.03.11版).chm
2018-02-27
数模美赛写论文软件Latex(CETX)安装包(强烈推荐)
2018-02-08
commons-collections-3.2.2-bin.zip
2018-02-03
HMM隐马尔科夫模型三大问题与算法浅析易懂
2020-11-11
linux版的anaconda安装包下载(亲测可用)
2019-10-25
wxFormBuilder_v3.5.1可视化图形界面设计工具
2018-11-06
程序员的算法趣题 /(日) 增井敏克著;绝云译
2018-07-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人