特征工程
Chercheer
道阻且长
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
fasttext算法原理及使用
1. FastText原理 fastText是一种简单高效的文本表征方法,性能与深度学习比肩。fastText的核心思想就是:将整篇文档的词及n-gram向量叠加平均得到文档向量,然后使用文档向量做softmax多分类。这中间涉及到两个技巧:字符级n-gram特征的引入以及分层Softmax分类。主要功能在于: 文本分类:有监督学习 词向量表征:无监督学习 1.1 模型框架(Model a...原创 2019-12-21 22:30:17 · 4481 阅读 · 1 评论 -
jieba 中文分词介绍及使用
目录 基本介绍 功能及使用 1. 分词 2. 添加自定义词典 2.1 载入词典 2.2 调整词典 3. 关键词提取 3.1 基于 TF-IDF 算法的关键词抽取 3.2 基于 TextRank 算法的关键词抽取 4. 词性标注 5. 并行分词 6. kenize:返回词语在原文的起止位置 基本介绍 支持 3 种分词模式 1)精确模式:将句子最精确的分开,适...原创 2019-12-09 21:13:09 · 3837 阅读 · 1 评论 -
从词袋到 tf-idf
复习一下文本处理的一些基本概念。 词袋:Bag-of-words,基于单词数量统计的 最简单的文本特征表示方法。对于文本数据,词袋可以理解为单词数量的统计列表。 文本“it is a puppy and it is extremely cute”具有下图中的词袋表示。原始文本是一个单词序列,但词袋中没有任何序列,它只记录每个单词在文本中出现的次数。 n元词袋:(bag-of-n-g...原创 2019-11-23 23:01:03 · 432 阅读 · 0 评论 -
时间切片特征衍生
在sql中比较容易处理类似“近n个月金额之和/最大值/最小值/平均值” 这样的变量,使用sum(case when date then amount else 0 end) 即可,如果是出差在外只能处理离线数据不能使用数据库时,这个时候就要用python去构造时间切片类的特征。整理了自己之前写过的代码,往往都太笨拙和重复。 import pandas as pd import numpy a...原创 2019-10-28 21:27:18 · 1161 阅读 · 0 评论
分享