![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据预处理
文章平均质量分 97
chengjinpei
NLP算法工程师
展开
-
手把手教你实现命名实体识别
自然语言处理实战--命名实体识别1.互联网金融新实体发现(数据获取)2.环境搭建3.赛题分析4.代码解析4.1数据预处理4.2模型构建4.3模型训练-1.互联网金融新实体发现(数据获取)比赛链接: 互联网金融新实体发现.本博客主要参考他的文章和代码: 阿力阿哩哩.感兴趣的话可以关注他的知乎、公众号以及B站账号。2.环境搭建(1)硬件环境:操作系统:windows 10或者 linux(Ubuntu 16~18) (本人使用的windows 10)硬件配置:主要是显卡要求:1660Ti 6G原创 2021-05-12 12:23:26 · 623 阅读 · 2 评论 -
命名实体识别的后处理--百家姓辅助字典
命名实体识别的后处理百家姓辅助字典代码实现使用深度学习模型去做命名实体识别任务时,可能会出现效果不好等现象,此时可以使用一些规则对预测模型进行后处理,从而提高模型的表现。比如在姓名实体识别过程中可以加入百家姓字典辅助。百家姓辅助字典代码实现stop_name字典可以自己整一个,每行是一个姓氏import codecs import sys def stop_words(path): with open(path,'r',encoding='utf-8',errors='ignore')原创 2020-08-19 15:13:34 · 485 阅读 · 0 评论 -
高频词随机抽取
高频词随机抽取随机抽取一定数量的高频词高频词一般是指文档中出现频率较高的且非无用的词.高频次提取其实就是自然语言处理中的TF(Term Frequence)策略,其主要有一下两个干扰项:(1)标签符号,一般情况下无实际价值(2)停用词:诸如“是”、‘哈’等无实意词需要剔除上述两个干扰项。随机抽取一定数量的高频词#将语料转成普通文本(这部分不是必须的)import codecsdef document_scratch(input_file,output_file): input_dat原创 2020-08-17 17:05:55 · 1468 阅读 · 0 评论 -
NER--《人民日报》语料库预处理
NER--《人民日报》语料库预处理转成标准BIEO格式转成标准BIEO格式# -*- coding: utf-8 -*-"""Created on Fri Jul 31 16:16:58 2020将《人民日报》中的标签转成标准的BIEO格式@author: jpcheng2"""import codecsdef text_map(texts: [str]) -> [str]: mapping = {'O': 'O', 'B_nr': 'B-PER原创 2020-08-12 16:21:30 · 3536 阅读 · 0 评论 -
Focal loss Tensorflow实现
Focal loss Tensorflow实现def focal_loss(prediction_tesnsor,target_tensor,weights = None,alpha = 0.25,gamma=2): """ FL = -alpha *(z-p)^gamma*log(p) - (1-alpha)*p^gamma *log(1-p) which alpha = 0.25,gamma = 2,p = sigmoid(x),z = target_tensor """ sigmoid_p原创 2020-08-10 18:03:29 · 685 阅读 · 0 评论 -
NLP数据增强--随机替换命名实体
NLP数据增强--随机替换命名实体随机替换实体主要参考这位大佬的博客 参考链接.随机替换实体输入一句话 :我不是<per>张加</per>,使用<per>标注实体是因为之前写过相关的博客。会按照姓名实体库里的实体随机替换,从而扩充语料。代码如下:#!/usr/bin/python# -*- coding: utf-8 -*-import codecsimport jieba as t_jiebaimport randomimport osr原创 2020-08-10 14:58:00 · 734 阅读 · 3 评论 -
数据集划分及简介 --训练集、测试集、验证集(开发集)
数据集划分 --训练集、测试集、验证集按比例划分数据集(按照句子级别)按比例划分数据集(按照句子级别)按照8:1:1比例划分数据集,下面展示一些代码:# -*- coding: utf-8 -*-"""Created on Fri Jul 31 16:26:46 2020随机将数据集按照句子级别划分训练集、测试集、验证集@author: jpcheng2"""import randomdef split(all_list, shuffle=False, ratio=0.8,ratio1原创 2020-08-07 11:33:38 · 4851 阅读 · 7 评论