- 博客(6)
- 收藏
- 关注
原创 Kaggle_news_stock简单文本特征处理
摘要: 这个是https://www.kaggle.com/aaron7sun/stocknews上面的一道DJIA波动预测题,其实也是二分类问题 也是个文本分类问题,特征是文本类型 基本方法是:TF-IDF + SVM 是文本分类问题的基准线 开始数据探索 import pandas as pd import numpy as np from sklearn.svm impor
2017-02-12 22:11:21 1841
转载 XGBoost参数调优
摘要: 转载:http://blog.csdn.net/han_xiaoyang/article/details/52665396 1. 简介 如果你的预测模型表现得有些不尽如人意,那就用XGBoost吧。XGBoost算法现在已经成为很多数据工程师的重要武器。它是一种十分精致的算法,可以处理各种不规则的数据。 构造一个使用XGBoost的模型十分简单。但是,提高这个模型
2017-02-12 17:52:17 5916 1
原创 GBDT参数调优
摘要: 此处主要是如何利用xgboost以及如何进行Xgboost调参,特征工程处理的比较简单。 特征工程: City这个变量已经被我舍弃了,因为有太多种类了。DOB转为Age|DOB,舍弃了DOB创建了EMI_Loan_Submitted_Missing这个变量,当EMI_Loan_Submitted 变量值缺失时它的值为1,否则为0。然后舍弃了EMI_Loan_Submi
2017-02-10 21:51:43 21929
原创 FP-growth算法高效实现
摘要: 搜索引擎中,输入一个单词或者单词的一部分。搜索引擎就会自动补全查询的单词项。用户甚至实现都不知道搜索引擎推荐的东西是否存在。搜索引擎公司研究元需要查看互联网上的词找出经常出线一起的词对。 它是基于Apriori算法,但是比它快。这里的任务是将数据集存储在一个特定的FP树结构中发现频繁项集或者频繁项对。 过程简化如下:会两次扫描数据集 1)构建FP树 2)从FP树中挖掘频繁项集
2017-02-10 15:40:02 1999
原创 kaggle模型融合简单入门
#这个题属性其实就两种 类别属性和数值属性 和Tantic不太一样我们可以统一处理 #处理类别属性但是值却是数字的特征 #MSSubClass 的值其实应该是一个category,是住宅属性 可是取值却是整数 #所以我们考虑将这个类的类型重新确定 def processMSSubClass(df): df['MSSubClass']=df['MSSubClass'].astype(str)
2017-02-07 20:51:54 6060
原创 kaggle简单框架总结
摘要: 分析过程在ipython notebook笔记中。下面主要贴一下这道题的代码框架。 #-*-coding:utf-8-*- import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn import preprocessing from sklearn.ensemble
2017-02-05 21:36:24 2459 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人