NLP:文档结构化(将大量的自然语言文本数据转化为结构化数据)的简介(LDA对比NMF等)、常用四大方法(依存分析/命名实体识别/主题模型/结构化序列标记)、案例应用之详细攻略
目录
1、文档结构化(将大量的自然语言文本数据转化为结构化数据)的概述
2、四大方法:依存分析/命名实体识别/主题模型/结构化序列标记
NLP:利用spacy的en_core_web_sm预训练语言模型通过对文本数据的依存分析法(主谓宾/语法树结构)实现将大量的文本数据转化为结构化数据应用案例实现代码
NLP:利用spacy的en_core_web_sm预训练语言模型通过对文本数据的命名实体识别法(实体及其类型/ORG_PERSON_GPE)实现将大量的文本数据转化为结构化数据应用案例实现代码
NLP之TM:基于多个文本数据(jieba分词+Dictionary构建字典+BoW转词频向量)利用LDA模型(gensim)实现主题模型进而转为结构化数据应用案例
NLP之TM:基于多个文本数据(CountVectorizer转词频向量)利用LDA模型(sklearn)实现主题模型进而转为结构化数据应用案例
NLP之TM:基于多个文本数据(TfidfVectorizer向量化)利用NMF模型(sklearn)实现主题模型进而转为结构化数据应用案例
NLP之TM:基于多个文本数据(BertTokenizer)利用BERT预训练模型(transformers)结合K-means均值聚类算法对文本向量进行聚类实现主题模型进而转为结构化数据应用案例
NLP:基于对文本数据利用LSTM算法(tensorflow框架/学习映射)算法作为标签器进行结构化序列标记实现将大量的文本数据转化为结构化数据应用案例实现代码