2019年05月_青木长风

原创第一场数据挖掘比赛的一些经验心得

本篇文章主要介绍内容：数据去噪，采样，特征工程数据去噪：无论是数据挖掘的比赛也好，还是日常生活中的各种项目也好，我们拿到手的数据集含有噪声数据是很正常的。噪声会降低我们的数据质量，从而影响我们模型的效果。因此，对噪声的处理是必须的，这一点是众所周知的事情。但是，在去噪的过程中我们也要注意以下问题。在我们这些天做的一个比赛上，一个队友，拿着没有好好处理噪音的数据集却误打误撞跑出了最高的分数，这...

2019-05-17 09:34:44 665

原创文本分析入门（三）

https://zhuanlan.zhihu.com/p/65481094

2019-05-14 15:28:18 254

原创文本分析入门（二）

还是先上新概念。分词我们在做文本挖掘的时候，要对文本做的预处理首先就是分词。对于英文来说，因此单词之间天然有空格隔开，因此可以按照空格分词（但也有需要把多个单词做成一个分词的时候）。而对于中文来说，由于没有空格，那么分词就变成了一个需要专门去处理去解决的问题。我们现在的分词都是基于统计来分词。对于一个良好的分词系统来说应该由词典和统计两套系统组成。统计，是为了给词典不断可持续地更新，不断加入...

2019-05-12 10:03:54 323

原创数据挖掘竞赛之后处理

最近开始入坑数据挖掘比赛，总是听圈内大佬们提到后处理涨分。我就一直很疑惑，一直都是数据预处理，怎么又冒出来一个后处理。在网上学习了之后，决定写一篇文章总结一下。就我目前学习到的数据挖掘的流程来说，一般拿到数据之后先进行数据的分析，清洗工作，比如去除离群点，填充缺失的数据。然后对数据进行处理，比如将object转成categorical类型，把房子的x室y厅z卫分成xyz三个属性…做特征写...

2019-05-12 00:37:20 506

原创文本分析入门（一）

今天在图书馆查了不少资料，感觉没什么特别好的学习途径。主要通过博客，李航的《统计学习方法》，相关比赛代码来学习。首先还是介绍几个名词，一个新领域总是有很多新名词。Tokenization：将文本转化为tokens的过程Tokens：在文本里的展示的单词或实体Text object：一个句子、短语、单词或文章文本分析也好，平时做的数据挖掘也好，开始都是需要数据预处理。文...

2019-05-07 15:37:42 3305

原创 TFIDF文本分析

TF-IDF是一种文本特征提取统计算法。什么是词频？词频（TF）即一个词语在文本中出现的频率。文本总数（D）：所搜集的所有文本数。含关键词的文本数（Dw）：含有某个词（关键字）的文本数目。公式：TF-IDF（w）=TF（w）*IDF（w）TF（w）=w在所有文件中出现的次数/该文件的总词数。IDF（w）=log(D/(Dw+1)）//+1避免分母为0IDF的作用：降低具有普遍性...

2019-05-06 23:58:58 1635

原创未来杯城市-房产租金预测开源baseline

昨天跟队友开源了一份线上0.85的baseline，发在我们的知乎专栏里了。知乎地址：https://zhuanlan.zhihu.com/p/64715267github地址：https://github.com/leo6033/future-AI-challenge下面贴一下baseline的主要代码部分：def parseData(df): """ 预处理数据 ...

2019-05-06 12:06:55 1356

所爱隔山海