NLP
文章平均质量分 81
九点澡堂子
这个作者很懒,什么都没留下…
展开
-
简短NLP入门完整代码附详解附数据集
数据集:https://pan.baidu.com/s/13IMDPMz0rf8kM1JAea53uQ 密码:y6m4 代码中涉及的具体的类或函数在对应的其他分支博客下谅解~ {第一次用markdown写代码块,排版不是很好,会越来越好~}# -*- coding: utf-8 -*-print("开始..............")import pandas as pdfrom...原创 2018-09-02 20:51:45 · 3192 阅读 · 6 评论 -
NLP
Part I:简历待补充~Part II:深度学习文本分类模型文本分类模型: CNN、RNN,TextCNN,fasttext TextCNN RCNN HAN DMN EntityNetwork charCNN charRNN等(待补充),各个模型的1. 用途/适用场景;2.具体结构/原理;3. 优缺点;4. 改进;5. 对比其他模型。1)CNN原理,如何用在文本上,在什么情况下适合用...原创 2018-11-11 11:41:31 · 451 阅读 · 0 评论 -
序列标注模型综述
命名实体识别是序列标注的子问题,需要将元素进行定位和分类,如人名、组织名、地点、时间、质量等。命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比) 命名实体。一般来说进行命名实体识别的方法可以分成两大类:基于规则的方法和基于统计的方法。基于规则的方法是要人工建立实体识别规则,存在着成本高昂的缺点。基于统计的方法一般需...原创 2018-11-09 17:55:45 · 3362 阅读 · 0 评论 -
序列标注简介
1. 序列标注序列标注:简单的来说序列标注就是:给定一个序列,对序列中的每一个元素做一个标记,或者说给每一个元素打一个标签。一般来说,一个序列指的是一个句子,而一个元素指的是句子中的一个词。2. 标签标签列表如下:B,即Begin,表示开始I,即Intermediate,表示中间E,即End,表示结尾S,即Single,表示单个字符O,即Other,表示其他,用于标记无关字符...原创 2018-11-09 15:05:17 · 4800 阅读 · 1 评论 -
文本分类任务的基础实现(五)——机器学习部分——特征提取_Doc2vec特征+hash特征原理介绍
本文介绍前文用到的特征提取方法的原理介绍。 【写的不好,理解的不透彻,理解深刻了回来再补充,去吃公司下午茶了,嘻嘻嘻】Doc2vec特征 & hash特征1. Doc2Vec将原始数据数字化为doc2vec特征from gensim.models.doc2vec import Doc2Vec, TaggedDocument """=============...原创 2018-09-14 17:53:10 · 1729 阅读 · 1 评论 -
文本分类任务的基础实现(四)——机器学习部分——特征提取_tf-idf特征+LSA特征原理介绍
本文介绍前文用到的特征提取方法的原理介绍。TF-IDF特征+LSA特征1. TF-IDF特征将原始数据数字化为tfidf特征from sklearn.feature_extraction.text import TfidfVectorizervectorizer = TfidfVectorizer(ngram_range=(1, 2), min_df=3, ...原创 2018-09-14 10:44:24 · 2367 阅读 · 1 评论 -
文本分类任务的基础实现(三)——机器学习部分——特征提取_tf特征+LDA特征原理介绍
本文介绍前文用到的特征提取方法的原理介绍。tf特征+LDA特征1. tf特征(term frequency词频特征)将原始数据数字化为tf特征from sklearn.feature_extraction.text import CountVectorizervectorizer = CountVectorizer(ngram_range=(1, 2), min_df=...原创 2018-09-13 11:08:34 · 2640 阅读 · 1 评论 -
文本分类任务的基础实现(二)——机器学习部分_分类器_代码介绍
该部分用于文本分类任务的基础实现,主要包括机器学习(ml)和深度学习(dl)两大部分,机器学习部分基于sklearn/lightgbm包实现,深度学习部使用pytorch深度学习框架。机器学习部分主要包含特征工程和分类器两大部分:特征工程部分主要针对文本分类任务的hash/lsa/lda/doc2vec特征提取/特征选择/特征组合/特征构造进行了实现;分类器部分主要有逻辑回归/SVM/...原创 2018-09-12 17:02:49 · 960 阅读 · 0 评论 -
文本分类任务的基础实现(一)——机器学习部分_特征工程_代码分解
本文主要介绍文本分类任务的基础实现,主要基于机器学习sklearn/lightgbm包实现。机器学习部分主要包含特征工程和分类器两大部分:特征工程部分主要针对文本分类任务的hash/lsa/lda/doc2vec特征提取/特征选择/特征组合/特征构造进行了实现;分类器部分主要有逻辑回归/SVM/随机森林/Bagging/Adaboost/GBDT /Xgboost /LightGBM等。...原创 2018-09-12 16:15:40 · 1439 阅读 · 1 评论 -
文本分类任务特征工程和分类器介绍
文本分类任务基本框架文本特征工程:决定模型的上限分类器:逼近模型的上限类别文本特征提取的主要方法分类1. 经典文本特征——前人研究成熟理论1). TF 词频 2). TFIDF 词频逆文档 3). Doc2vec 深度学习 词向量按位相加形成一个向量,或者拼接形成长向量 4). Word2vec 深度学习2. 手工构...原创 2018-09-11 17:32:26 · 2044 阅读 · 1 评论 -
序列标注模型详解
HMM、MaxEnt、CRF 模型介绍随着近年来互联网等新兴媒体的快速发展,人类已经进入了信息爆炸的时代。同时也越来越希望计算机能够理解人类的语言,以更好地帮助人类完成各种日常工作。因此自然语言处理成为了近年来的研究热点。而在自然语言处理中,序列标注模型是最常见的模型,也有着广泛地应用。与一般分类问题不同的是,序列标注模型输出的是一个标签序列。通常而言,标签之间是相互联系的,构成标签之间的结构...原创 2018-11-14 15:47:19 · 8391 阅读 · 3 评论