自然语言处理NLP - 杂学
闲暇时学习内容
骑单车的王小二
切勿眼高于顶,谨记脚踏实地。
展开
-
中国省市区
中国省市大全原创 2022-12-05 11:23:31 · 388 阅读 · 0 评论 -
算法-特征分桶
特征分桶原创 2022-09-26 10:11:41 · 259 阅读 · 0 评论 -
MMR重排(相似度通过编辑距离和重复度计算)
MMR重排(相似度通过编辑距离和重复度计算)原创 2022-06-27 14:30:54 · 306 阅读 · 0 评论 -
京东搜索召回技术
大佬分享搜索主要经历四个阶段:召回、粗排、精排和重排,最后呈现给用户最终的结果。而召回的结果主要来自两个部分:倒排检索和语义召回。传统的倒排检索依赖字面匹配,很难去召回一些语义相似但是字面不匹配的商品。传统的语义召回策略有人工干预召回、人工构建同义词表进行同义词替换等等。但是相比于深度语义模型,这些技术费时费力,并且覆盖率低下,很难适应快速增长的海量商品的召回需求。今天想要和大家分享的是在深度学习背景下,京东基于语义的搜索召回技术和新的进展。https://mp.weixin.qq.com原创 2022-03-14 15:55:13 · 679 阅读 · 0 评论 -
如何高质量增量训练lac分词模型
LAC 是百度开源的高质量分词工具(GRU+CRF),其提供增量训练的接口,形如:from LAC import LAC# 选择使用分词模型lac = LAC(mode = 'seg')# 训练和测试数据集,格式一致train_file = "./data/seg_train.tsv"test_file = "./data/seg_test.tsv"lac.train(model_save_dir='./my_seg_model/',train_data=train_file, test_原创 2022-01-29 16:21:50 · 1979 阅读 · 0 评论 -
python csv写入多列
import csvf=open('原文件路径',"r",encoding="utf8")csvfile = open('要写入的.csv', 'w',newline='',encoding="utf8")writer=csv.writer(csvfile, delimiter=",")con=f.readlines()row=["a","b","c"]writer.writerow(row)for line in con: row=line.split("\t") write原创 2021-12-23 21:44:30 · 3278 阅读 · 0 评论 -
pytorch bert微调实例(句子对)
transformer上的实例:https://github.com/huggingface/transformers/tree/master/examples/pytorch/text-classification微调教程:https://huggingface.co/docs/transformers/task_summary原创 2021-12-21 11:02:19 · 452 阅读 · 0 评论 -
结巴分词学习
参考:https://zhuanlan.zhihu.com/p/66904318https://github.com/fxsjy/jieba中文C++版:https://www.zhihu.com/question/353722203/answer/945067523结巴分词框架结构:原创 2021-07-28 22:13:12 · 474 阅读 · 0 评论 -
UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xbc in position 7291: invalid start byte
遇到这种问题,就是文件编码的缘故。最好的解决方式就是,以二进制的方式读,然后以正确的编码重新encode它。示例:#我想要utf-8格式的with open('words.vec','rb') as f: lines=[l.decode('utf8','ignore') for l in f.readlines()]...原创 2020-12-06 19:26:46 · 638 阅读 · 0 评论 -
二叉树-前序、中序、后序(含python实现)
目录二叉树前序遍历二叉树二叉树属于树的一种,其每个节点最多有两个子节点。二叉树在数据结构中应用十分广泛。常见的二叉树有:平衡二叉搜索树:又被称为AVL树,有以下性质:它是一棵空树或它的左右两个子树的高度差的绝对值不超过1,并且左右两个子树都是一棵平衡二叉树。满二叉树:高度为n的满二叉树有2n−12^n-12n−1个节点。完全二叉树:上层全满,最下层从左到右顺序排列。为了方便下文对二叉树的实例讲解,这里初始化一个二叉树类:class BinaryTree: def __i原创 2020-08-26 22:33:40 · 1392 阅读 · 0 评论 -
bert学习
图解BERT模型:从零开始构建BERT 如何评价 BERT 模型? NLP必读 | 十分钟读懂谷歌BERT模型原创 2020-08-17 14:16:09 · 521 阅读 · 0 评论 -
python-错排公式及解析
python-错排公式及解析错排公式解析错排公式f(1)=0f(2)=1f(n) = (n-1)[f(n-2)+f(n-1)] (n>2) 。解析错排就是指给定一个长度为n的数组,让数组中的n个元素都不在原来的位置上,看一共有多少种情况。易得:当n=1或n=2时,只有0种或1种情况是错排。当n>2时,可以这样考虑( 假设方法为 f(n) ):错排第1个元素(将 第1个元素排在第 2 至第 n 个位置之一),共有 n - 1 种情况。 此时假设第1个元素落在第inx位置。原创 2020-08-14 09:14:51 · 924 阅读 · 0 评论 -
数学中常见的arg min,arg max是什么意思
arg 是变元(即自变量argument)的英文缩写。 arg min 就是使后面这个式子达到最小值时的变量的取值 arg max 就是使后面这个式子达到最大值时的变量的取值 例如 函数F(x,y): arg min F(x,y)就是指当F(x,y)取得最小值时,变量x,y的取值 arg max F(x,y)就是指当F(x,y)取得最大值时,变量x,y的取值 ...转载 2020-08-13 08:32:12 · 3464 阅读 · 0 评论 -
python训练时指定GPU
一、如果是要在py文件里指定,参照如下方式:import osos.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID" #可不写os.environ["CUDA_VISIBLE_DEVICES"] = "0" #0就是指定GPU 0 跑实验,可按需修改成其他GPU#设置定量的GPU使用量config = tf.ConfigProto() config.gpu_options.per_process_gpu_memory_fraction = 0.9原创 2020-08-05 14:51:30 · 2508 阅读 · 2 评论 -
基于rasa构建任务型对话系统
构建流程:一、二对话系统视频及源码:一、二、三个人实验完成后再补充。原创 2020-08-03 11:43:46 · 1510 阅读 · 0 评论 -
《Neural Approaches to Conversational AI》学习笔记
《Neural Approaches to Conversational AI》学习笔记基本框架:NLU模块对话状态对话策略学习模块域扩展组合任务对话奖励机制自然语言生成模块Natural Language Generation (NLG)其他微软小冰框架常用评价指标神经网络基本框架:Natural Language Understanding (NLU): This module takes the user’s raw utterance asinput and converts it to原创 2020-07-30 08:56:14 · 722 阅读 · 0 评论 -
自然语言处理领域相关的学习资源
雷锋网公开课:https://www.leiphone.com/openCourse/list我爱自然语言处理:https://www.52nlp.cn中科院 宗成庆 自然语言处理公开课:https://www.bilibili.com/video/av48841633/进阶版公开课 李宏毅:https://www.bilibili.com/video/BV1wE411W7TV?from=search&seid=1037190713560400000人生很短,以学为乐!加油!...原创 2020-07-21 22:48:02 · 317 阅读 · 0 评论 -
NLP文本数据增强热门技术
NLP文本数据增强热门技术背景word替换同义词替换插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入背景CV中有很多简单实用的数据增强方式,如旋转图像、调整RGB等。这些方法在保证图像特征的基础上增加了训练量,进而能够提升模型的表现效果。但在NLP中这些方法就不再适用,文本上少量的调整都原创 2020-07-20 10:27:04 · 1866 阅读 · 1 评论