2017年02月_hhy518518

原创 Kaggle_news_stock简单文本特征处理

摘要：这个是https://www.kaggle.com/aaron7sun/stocknews上面的一道DJIA波动预测题，其实也是二分类问题也是个文本分类问题，特征是文本类型基本方法是：TF-IDF + SVM 是文本分类问题的基准线开始数据探索 import pandas as pd import numpy as np from sklearn.svm impor

2017-02-12 22:11:21 1841

转载 XGBoost参数调优

摘要：转载：http://blog.csdn.net/han_xiaoyang/article/details/52665396 1. 简介如果你的预测模型表现得有些不尽如人意，那就用XGBoost吧。XGBoost算法现在已经成为很多数据工程师的重要武器。它是一种十分精致的算法，可以处理各种不规则的数据。构造一个使用XGBoost的模型十分简单。但是，提高这个模型

2017-02-12 17:52:17 5916 1

原创 GBDT参数调优

摘要：此处主要是如何利用xgboost以及如何进行Xgboost调参，特征工程处理的比较简单。特征工程： City这个变量已经被我舍弃了，因为有太多种类了。DOB转为Age|DOB,舍弃了DOB创建了EMI_Loan_Submitted_Missing这个变量，当EMI_Loan_Submitted 变量值缺失时它的值为1，否则为0。然后舍弃了EMI_Loan_Submi

2017-02-10 21:51:43 21929

原创 FP-growth算法高效实现

摘要：搜索引擎中，输入一个单词或者单词的一部分。搜索引擎就会自动补全查询的单词项。用户甚至实现都不知道搜索引擎推荐的东西是否存在。搜索引擎公司研究元需要查看互联网上的词找出经常出线一起的词对。它是基于Apriori算法，但是比它快。这里的任务是将数据集存储在一个特定的FP树结构中发现频繁项集或者频繁项对。过程简化如下：会两次扫描数据集 1）构建FP树 2）从FP树中挖掘频繁项集

2017-02-10 15:40:02 1999

原创 kaggle模型融合简单入门

#这个题属性其实就两种类别属性和数值属性和Tantic不太一样我们可以统一处理 #处理类别属性但是值却是数字的特征 #MSSubClass 的值其实应该是一个category，是住宅属性可是取值却是整数 #所以我们考虑将这个类的类型重新确定 def processMSSubClass(df): df['MSSubClass']=df['MSSubClass'].astype(str)

2017-02-07 20:51:54 6060

原创 kaggle简单框架总结

摘要：分析过程在ipython notebook笔记中。下面主要贴一下这道题的代码框架。 #-*-coding:utf-8-*- import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn import preprocessing from sklearn.ensemble

2017-02-05 21:36:24 2459 1

hhy518518的专栏