特征工程
Chercheer
道阻且长
展开
-
fasttext算法原理及使用
1. FastText原理fastText是一种简单高效的文本表征方法,性能与深度学习比肩。fastText的核心思想就是:将整篇文档的词及n-gram向量叠加平均得到文档向量,然后使用文档向量做softmax多分类。这中间涉及到两个技巧:字符级n-gram特征的引入以及分层Softmax分类。主要功能在于:文本分类:有监督学习 词向量表征:无监督学习1.1 模型框架(Model a...原创 2019-12-21 22:30:17 · 3543 阅读 · 1 评论 -
jieba 中文分词介绍及使用
目录基本介绍功能及使用1. 分词2. 添加自定义词典2.1 载入词典2.2 调整词典3. 关键词提取3.1 基于 TF-IDF 算法的关键词抽取3.2 基于 TextRank 算法的关键词抽取4. 词性标注5. 并行分词6. kenize:返回词语在原文的起止位置基本介绍支持 3 种分词模式 1)精确模式:将句子最精确的分开,适...原创 2019-12-09 21:13:09 · 3059 阅读 · 1 评论 -
从词袋到 tf-idf
复习一下文本处理的一些基本概念。词袋:Bag-of-words,基于单词数量统计的 最简单的文本特征表示方法。对于文本数据,词袋可以理解为单词数量的统计列表。文本“it is a puppy and it is extremely cute”具有下图中的词袋表示。原始文本是一个单词序列,但词袋中没有任何序列,它只记录每个单词在文本中出现的次数。n元词袋:(bag-of-n-g...原创 2019-11-23 23:01:03 · 293 阅读 · 0 评论 -
时间切片特征衍生
在sql中比较容易处理类似“近n个月金额之和/最大值/最小值/平均值” 这样的变量,使用sum(case when date then amount else 0 end) 即可,如果是出差在外只能处理离线数据不能使用数据库时,这个时候就要用python去构造时间切片类的特征。整理了自己之前写过的代码,往往都太笨拙和重复。import pandas as pdimport numpy a...原创 2019-10-28 21:27:18 · 970 阅读 · 0 评论