2017年08月_qq_32659887

转载数据挖掘参考资源

理论部分：特征工程怎么做通过一个kaggle实例学习解决机器学习问题实践部分：使用sklearn做特征工程使用sklearn优雅的进行数据挖掘

2017-08-14 12:14:30 339

转载 How can we identify the weights of different models for ensemble?

One of the most common challenge with ensemble modeling is to find optimal weights to ensemble base models. In general, we assume equal weight for all models and takes the average of predictions. But,

2017-08-12 19:07:32 253

原创 RandomForest调参，不断总结

class sklearn.ensemble.RandomForestClassifier(n_estimators: int 默认10criterion：gini” or “entropy”(default=”gini”)表示使用基尼不纯度还是信息增益来计算属性，来选择最合适的节点。 max_depth：(default=None)设置树的最大深度，默认为None，直到使每一个叶节点

2017-08-11 15:41:53 9047

翻译七种重要的模型验证错误矩阵

预测模型的类型：1.分类模型：分类问题中有两类算法（1）类别输出：比如SVM，KNN等（2）概率输出：LR，random forest，Gradient boosting,adaboost等都给出概率输出。将概率输出转换为类输出仅仅只需要设定概率阈值2.回归模型：输出连续值验证矩阵：

2017-08-11 09:08:17 552

翻译 pandas 常用方法

1.布尔筛选data.loc[（data['a'] ==a1）＆（data ['B'] ==b1），['A','B']]2.data.apply ( func, axis=0) #axis=0 defines that function is to be applied on each column3.#对于类别变量填补缺失值from scipy.stats import modemo

2017-08-10 21:03:16 455

翻译 python用于数据科学教程

此博文是对原文的一个理解和知识点整理(个人理解可能有误)，只是方便以后快速查阅。不是对原文的完全翻译，原文详细链接点击打开链接一：python数据分析基础二：python库和数据结构三：pandas用于数据探索（1）导入库（2）读入数据：pd.read_csv()（3）查看：df.head() 大致查看数据前几行，了解内容df.describe() 计数，平均值

2017-08-10 11:52:36 287

转载【总结】Python 2.x中常见字符编码和解码方面的错误及其解决办法

转载自：在路上 »【总结】Python 2.x中常见字符编码和解码方面的错误及其解决办法点击打开链接Python 2.x中的字符编码，设计的的确不好，导致初学者，甚至是即使用Python很长时间的人，都会经常遇到字符编解码方面的错误。下面就把一些常见情，尽量的都整理出来，并给出相应的解决办法。看此文之前Python中字符编码所涉及的背后逻辑（从你输入字符，到

2017-08-03 17:32:33 387

原创做推荐系统细节记录

1.groupby 之后的对象转换为Dataframe object.reset_index()2.替换指定数值 df.A = df.A.map({'F': '000', 'S': '001'})3.DataFrame.to_dict(orient='') dict (default) : dict like {column -> {index

2017-08-03 16:53:09 425

qq_32659887的博客