![](https://img-blog.csdnimg.cn/20190918135101160.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
NLP算法
文章平均质量分 85
自然语言处理算法
飞锡2024
算法工程师,paddle/cv girl
展开
-
pycorrector检测OCR错字实践
stopwords.txt 添加专业停用词,避免错误设置自定义词典,避免将正确的词错误检测成错误的词去掉拼音纠正(OCR不会出现同音错误,更正后检测到的数量少了30%)更改corrector.py内容,路径类似 miniconda/envs/env_name/lib/python3.x/site-packages/pycorrector/corrector.py。原创 2024-03-20 10:59:51 · 432 阅读 · 0 评论 -
关系抽取模型介绍和实践
1.服务器上,文件名最好用英文,不然可能报文件不存在的错误2.输入格式注意,输入最好一个batch,一个batch,保证模型的泛化性3.原创 2021-04-25 11:06:19 · 4431 阅读 · 10 评论 -
word2vec,glove 向量模型训练实践
步骤:1.准备语料和字典2.处理数据,分字/词,遍历语料每一个词或者字,如果该词或者字不在字典中,设置为[UNK]3.处理后的数据放入模型(gensim/glove)训练,若经过一定epoch,loss值变化不大,则收敛,停止训练,保存得到embedding和字典(后续任务可能会用上)各种词向量的特点:One-hot:维度灾难 and 语义鸿沟矩阵分解(LSA):利用全局语料特征,但SVD求解计算复杂度大基于NNLM/RNNLM的词向量:词向量为副产物,存在效率不高等问题word2vec、f原创 2021-04-10 15:49:13 · 1646 阅读 · 2 评论 -
bert简单介绍和实践
一,安装环境安装Anaconda,打开Anaconda prompt创建python=3.7版本的环境,取名叫py36conda create -n DP python=3.7激活环境conda activate DP (conda4之前的版本是:source activate py36 )退出环境conda deactivate下载如下包:xlwd,xlrd 1.2.0transformers 4.1.1pytorch 1.6numpy 1.19.4pandas 1.1原创 2021-03-13 15:31:37 · 10616 阅读 · 2 评论 -
fasttext介绍和实践(科室推荐)
数据抽取:获取主诉信息(主诉是医生对病人的症状及发展情况描述)、病人性别、年龄、科室信息fasttext官网:https://fasttext.cc/docs/en/supervised-tutorial.htmlfasttext介绍FastText是Facebook研究团队创建的一个库,用于高效计算word representation和执行文本分类,可以在几秒内完成其他算法几天才可以完成的任务。实践注意事项数据预处理:由于有些主诉相同时,挂的科室也不一样,需要进一步处理,如删除某个类别的原创 2021-06-03 14:49:19 · 473 阅读 · 1 评论 -
fasttext-文本二分类实践(天池小布助手对话短文本语义匹配)
对句子二分类,检测两个句子是否表达是同一个意思,模型数据来自天池全球人工智能技术创新大赛【赛道三】详情import pandas as pdimport randomcate_dic = {'same':1, 'different':0}train_file = r'G:\chromeDownload\预测是否属于同一语义\baseline_tfidf_lr\oppo_breeno_round1_data\gaiic_track3_round1_train_20210228.tsv'test_f原创 2021-04-13 13:30:06 · 937 阅读 · 0 评论 -
语言模型介绍
词袋模型(One-hot)词袋模型:最早的以词为基本处理单元的文本向量化方法,词袋模型通过先构建一个包含语料库中所有词的词典,然后根据词典完成对每个词的向量化,进而完成文本向量化。通过词典将所有的词向量化,每个词的向量长度都是词典的大小,然后向除了一个位置的元素是1,这个位置是词在词典中的index,其他元素全是0。这种表示方法称为one-hot向量表示,如下:watch = [0, 0, 0, 1, 0, 0, 0, 0, 0, 0]完成对所有词的向量化之后,就可以得出两个文本的向量化(词向量相原创 2021-04-10 14:54:30 · 3335 阅读 · 0 评论 -
TextCNN文本分类实践
传统文本分类方法训练集----》文本预处理—》特征提取—》文本表示 (特征工程)—》分类器文本预处理Bag of Words:此向量表示法不会保存原始句子中词的顺序TF-IDF:文档可以看作段落,陌生词可以用一个符号表示,如UNK分类器:SVM,朴素贝叶斯,LR等深度学习文本文类方法[one-host] 1w * embedding 300—>(降维)300wordvec训练词向量算法:CBOW SKIP-GRAM GLOVE无监督fasttext可以做文本分类和原创 2021-04-03 19:57:54 · 1593 阅读 · 0 评论 -
glove文本分类介绍
GloVe的全称叫Global Vectors for Word Representation,它是一个基于全局词频统计(count-based & overall statistics)的词表征(word representation)工具。GloVe与word2vec的区别:两个模型都可以根据词汇的“共现co-occurrence”信息,将词汇编码成一个向量(所谓共现,即语料中词汇一块出现的频率)。两者最直观的区别在于,word2vec是“predictive”的模型,而GloVe是“cou原创 2021-04-07 21:07:10 · 579 阅读 · 0 评论 -
pkuseg,LTP,jieba分词实践
jeiba分词“结巴”分词是一个Python 中文分词组件,参见https://github.com/fxsjy/jieba可以对中文文本进行分词、词性标注、关键词抽取等功能,并且支持自定义词典。jieba分词的原理利用一个中文词库,确定汉字之间的关联概率汉字间概率大的组成词组,形成分词结果安装包jieba分词包 :pip install jieba实践import jiebaif __name__ == '__main__': #jieba分词有三种不同的分词模式:精确模式、全模式原创 2021-03-15 10:26:48 · 1729 阅读 · 0 评论 -
句向量训练总结
https://zhuanlan.zhihu.com/p/151854074句向量应用语义搜索,通过句向量相似性,检索语料库中与query最匹配的文本文本聚类,文本转为定长向量,通过聚类模型可无监督聚集相似文本文本分类,表示成句向量,直接用简单分类器即训练文本分类器句向量模型:文档向量构建方法优缺点:bag of words而言,有如下缺点:1.没有考虑到单词的顺序,2.忽略了单词的语义信息。因此这种方法对于短文本效果很差,对于长文本效果一般,通常在科研中用来做baseline。a原创 2021-12-08 16:05:36 · 1851 阅读 · 0 评论