特征工程与数据处理
文章平均质量分 85
Macropodus
最后一次为理想而战。安知南山桂,绿叶垂芳根。何须浅碧深红色,自是花中第一流。
展开
-
中文文本分析, Text-Analysis
中文文本分析, Text-AnalysisText-Analysis包括analysis-word 词语分析和analysis-classify 文本分类数据分析等, 支持python3读写word的docx格式(包括字体/颜色/高亮)、读pdf等。analysis-word 词语分析介绍analysis_word可用于无监督分析多文件语料(HTML/PDF/DOCX/DOC/TXT/MD), 支持docx高亮抽取-读写、新词发现、中文分词、TFIDF、词向量、词语聚类、句子聚类等功能。详情各个原创 2021-11-01 23:44:37 · 2026 阅读 · 0 评论 -
L1、L2正则化;归一化与标准化
矩阵与numpy、sklearn操作 l1正则化 l2正则化 0-1标准化处理 0-1缩放处理 0-1归一化处理 均值归一化 sig归一化处理Github项目地址:https://github.com/yongzhuo/Tensorflow-Examples/blob/master/Features_Project/normali...原创 2019-03-12 14:51:31 · 4532 阅读 · 0 评论 -
文本数据增强一(概述、中文、同义句生成、enhance、augment、text、nlp)
文本数据增强(扩充增加、中文、同义句生成、enhance、augment、text、nlp)AugmentText概述 - 相较于图像数据增强,文本数据增强,现在还是有很多问题的; - 往更严格的角度看,文本数据增强更像是同义句生成,但又不完全是,它是一个更大范围的概念; - 很多时候,需要文本数据增强,一个是常常遇到的数据不足,另一个就是数据不均衡。 ...原创 2019-04-09 23:46:33 · 12355 阅读 · 0 评论 -
bert中文短文本句向量生成、相似度计算(GPU版、windows、win10、linux、django和flask可用)
BERT句向量GPU线上调用等。出现Floating point exception and SystemError: error return without exception set 。 最近上线需要用到bert,走过了很多坑,有的甚至是不知道怎么回事,而且也很容易从解决一个问题,跳到另外一个问题,巨坑呀有木有。https://github.com/hanx...原创 2019-05-12 09:24:48 · 7934 阅读 · 17 评论 -
中文短文本分类实例一-TextClassification概述综述(一般步骤流程、概论和归类、调参和tricks)
一、概述 中文短文本分类任务(text classification of short or long sentence)是自然语言处理NLP中的一个特别重要的任务,简单来看,生活中常见的新闻分类、情感分类、邮件分类、领域意图分类<接触的最多>、舆情分析、论文分类等,都离不开文本分类;往复杂里说,文本分类任务是词性标注与分词、相似度计算与排序、实体提取与关系抽取、位置...原创 2019-06-15 02:19:54 · 5886 阅读 · 2 评论