特征工程
Janet_zyh
一只内心向阳的小小孩儿,进击的画渣,在coding中摸爬滚打的女猿猿,热爱技术与设计的Geek girl。
展开
-
【精通特征工程】学习笔记(四)
5、分类变量:自动化时代的数据计数 分类变量是用来表示类别或标记的,又称为无序变量 大型分类变量,分箱计数 5.1 分类变量的编码 分类变量中的类别通常不是数值型的。例如,眼睛的颜色可以是“黑色”“蓝色”和“褐 色”,等等。因此,需要一种编码方法来将非数值型的类别转换为数值。如果简单地为 k 个可能类别中的每个类别分配一个整数,如从 1 到 k,但这样做的结果是 使类别彼此之间有了顺序,这在分...原创 2020-02-22 19:01:23 · 528 阅读 · 0 评论 -
【精通特征工程】学习笔记(三)
【精通特征工程】学习笔记Day3&2.13&D4章&P52-64页 4、特征缩放的效果:从词袋到 tf-idf 4.1 tf-idf:词袋的一种简单扩展 tf-idf:词频 - 逆文档频率 tf-idf 计算的不是 数据集中每个单词在每个文档中的原本计数,而是一个归一化的计数,其中每个单词的计 数要除以这个单词出现在其中的文档数量 bow(w, d) = 单词 w 在文...原创 2020-02-22 18:59:16 · 437 阅读 · 0 评论 -
【精通特征工程】学习笔记(二)
【精通特征工程】学习笔记Day2&2.5&D3章&P33-页 3、文本数据:扁平化、过滤和分块 3.1 元素袋:将自然文本转换为扁平向量 3.1.1 词袋 一个特征就是一个单词,一个特征向量由这个单词在每篇文档中出现的次数组成 3.1.2 n 元词袋 n-gram(n 元词)是由 n 个标记 (token)组成的序列。 1-gram 就是一个单词(word),又称为一元词...原创 2020-02-05 16:41:16 · 429 阅读 · 0 评论 -
【精通特征工程】学习笔记(一)
【精通特征工程】学习笔记Day1&1.26&D1-2章&P1-32页 1、机器学习流程&基本概念 数据–任务–模型–特征–模型评价 **数据:**是对现实世界的现象的观测 **特征:**就是原始数据某个方面的数值表示 **特征工程:**是指从原始数据中提取特征并将其转换为适合机器学习模型的格式 在统计机器学习中,所有数据最终都会转化为数值型特征。因此,所有特征工程...原创 2020-01-29 20:27:27 · 776 阅读 · 1 评论