Feature Engineering
文章平均质量分 82
nemoyy
这个作者很懒,什么都没留下…
展开
-
【特征工程】为什么我要记录我学习特征工程的过程
坊间常说:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。确实在实践过程中,数据处理和特征选择占据了整个项目大部分的时间,模型和算法就那么几个,训练的时候往上套就行。比如说Kaggle的入门比赛Titanic问题,要求对各种特征及其间关系有深刻的理解,合理的处理数据,模型预测效果才够好。xgboost是个非常强大的工具,但我简单的特征工程之后xgboost预测的效果还没有只用性别...原创 2018-03-03 11:04:43 · 437 阅读 · 0 评论 -
【特征工程】Chp1 介绍
机器学习使用数学模型对数据进行拟合来做预测或者帮助理解。模型以特征作为输入。特征是原始数据的一种数字表达,从数据到模型的中间过程,就是特征工程。特种工程是将原始数据提取出来,然后转换为适合机器学习模型的形式。这一步骤非常关键,优秀的特种工程可以有效的降低建模难度。虽然在建立一个ML流水线的时候,大部分时间都是用来做特种工程和数据清洗的,但是因为数据和模型的多样,很难泛化这一过程。尽管如此,本书会逐...原创 2018-03-03 12:02:00 · 705 阅读 · 0 评论 -
样本不均衡问题
今天看到有人分享的一个CV方面的面试问题:从网上爬来的200W图片数据集和公司自己积累的10W图片数据集,怎么分训练集,测试集?这个问题我之前在deeplearning.ai学习过,还有一点印象,这里引用大树先生的笔记,:方法一:将两组数据合并到一起,总共得到210万张图片样本。将这些样本随机分配到训练、开发、测试集中。好处:三个集合中的数据均来自于同一分布;坏处:我们设立开发集的目的是瞄准目标,...原创 2018-03-13 22:37:13 · 826 阅读 · 0 评论 -
【特征工程】Chap3 Text Data: Flatten, Filtering, Chunking
本章介绍文本的特种工程。从最简单的 bag-of-words开始。下一章会介绍tf-idf。Bag of X: Turning Natural Text into Flat Vectors简单而好理解的特征虽然不一定得到最精确的模型,但从简单开始,只有到必须的时候才增加复杂性确实是好主意。bag-of-words,一个词数统计的列表,虽然找不到文本中特殊的词,但可以发现那些多次出现的词。这对解决文...原创 2018-05-02 01:37:00 · 665 阅读 · 0 评论 -
[特征工程]Chap4. 特征缩放:TF-IDF
本章通过BOW 到tf-idf的变化,讨论 feature scaling 的效果.TF-IDF: BOW的变种tf-idf可以说就是BOW基础上的变种, 全称: term frequency- inverse document frequency ,中文: 词频-逆文件频率.BOW记录文件中的词频, 明显的问题就是会强调一些没意义的词, 如英文中的 'the' 'and' 'it' 等等词频会很...原创 2018-05-04 03:31:36 · 964 阅读 · 0 评论 -
论文阅读:node2vec: Scalable Feature Learning for Networks
node2vec: Scalable Feature Learning for Networks摘要基于网络中节点和边的预测任务中的特征工程总是很麻烦的。虽然表示学习的自动学习特征已经有很大的帮助,但现有的特征学习方式无法对网络中连接模式的多样性进行足够的捕捉。node2vec是本论文提出的一种对网络中的节点学习连续特征表达的框架。通过将节点映射到maximizes the lik...原创 2018-08-19 21:52:53 · 13491 阅读 · 3 评论