自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 第一场数据挖掘比赛的一些经验心得

本篇文章主要介绍内容:数据去噪,采样,特征工程数据去噪:无论是数据挖掘的比赛也好,还是日常生活中的各种项目也好,我们拿到手的数据集含有噪声数据是很正常的。噪声会降低我们的数据质量,从而影响我们模型的效果。因此,对噪声的处理是必须的,这一点是众所周知的事情。但是,在去噪的过程中我们也要注意以下问题。在我们这些天做的一个比赛上,一个队友,拿着没有好好处理噪音的数据集却误打误撞跑出了最高的分数,这...

2019-05-17 09:34:44 665

原创 文本分析入门(三)

https://zhuanlan.zhihu.com/p/65481094

2019-05-14 15:28:18 254

原创 文本分析入门(二)

还是先上新概念。分词我们在做文本挖掘的时候,要对文本做的预处理首先就是分词。对于英文来说,因此单词之间天然有空格隔开,因此可以按照空格分词(但也有需要把多个单词做成一个分词的时候)。而对于中文来说,由于没有空格,那么分词就变成了一个需要专门去处理去解决的问题。我们现在的分词都是基于统计来分词。对于一个良好的分词系统来说应该由词典和统计两套系统组成。统计,是为了给词典不断可持续地更新,不断加入...

2019-05-12 10:03:54 323

原创 数据挖掘竞赛之后处理

最近开始入坑数据挖掘比赛,总是听圈内大佬们提到后处理涨分。我就一直很疑惑,一直都是数据预处理,怎么又冒出来一个后处理。在网上学习了之后,决定写一篇文章总结一下。就我目前学习到的数据挖掘的流程来说,一般拿到数据之后先进行数据的分析,清洗工作,比如去除离群点,填充缺失的数据。然后对数据进行处理,比如将object转成categorical类型,把房子的x室y厅z卫分成xyz三个属性…做特征写...

2019-05-12 00:37:20 506

原创 文本分析入门(一)

今天在图书馆查了不少资料,感觉没什么特别好的学习途径。主要通过博客,李航的《统计学习方法》,相关比赛代码来学习。首先还是介绍几个名词,一个新领域总是有很多新名词。Tokenization:将文本转化为tokens的过程Tokens:在文本里的展示的单词或实体Text object:一个句子、短语、单词或文章文本分析也好,平时做的数据挖掘也好,开始都是需要数据预处理。文...

2019-05-07 15:37:42 3305

原创 TFIDF文本分析

TF-IDF是一种文本特征提取统计算法。什么是词频?词频(TF)即一个词语在文本中出现的频率。文本总数(D):所搜集的所有文本数。含关键词的文本数(Dw):含有某个词(关键字)的文本数目。公式:TF-IDF(w)=TF(w)*IDF(w)TF(w)=w在所有文件中出现的次数/该文件的总词数。IDF(w)=log(D/(Dw+1))//+1避免分母为0IDF的作用:降低具有普遍性...

2019-05-06 23:58:58 1635

原创 未来杯 城市-房产租金预测开源baseline

昨天跟队友开源了一份线上0.85的baseline,发在我们的知乎专栏里了。知乎地址:https://zhuanlan.zhihu.com/p/64715267github地址:https://github.com/leo6033/future-AI-challenge下面贴一下baseline的主要代码部分:def parseData(df): """ 预处理数据 ...

2019-05-06 12:06:55 1356

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除