2016年10月_BYR_jiandong

12月 11月 10月 09月 08月 07月 05月 04月 02月 01月

原创 python 编码问题总结

1、简而言之，Python 2.x里字符串有两种：str和Unicode前者到后者要decode，后者到前者要encode,'utf-8'为例：str.decode('utf-8') -> Unicodestr 总结：Unicode就像是中间桥梁，utf-8编码，GBK编码都可以decode成unicode编码，而unicode编码可以encode成utf-8。编码其实就分

2016-10-28 23:04:05 448

原创 pandas contact 之后，一定要记得用reset_index去处理index,不然容易出现莫名的逻辑错误

# -*- coding: utf-8 -*-import pandas as pdimport sysdf1 = pd.DataFrame({ 'A': ['A0', 'A1', 'A2', 'A3'], 'B': ['B0', 'B1', 'B2', 'B3'], 'C': ['C0', 'C1', '

2016-10-25 23:51:00 73978 2

原创安装jpype出现_jpype错误的解决方案

说明：主要是执行该python文件调用了anaconda的python解释器。所以报错：后来使用/user/bin python 调用该py文件就可以执行成功。说明：#！/usr/bin/python 也是默认调用/usr/bin/python,这样通过./a.py

2016-10-18 12:56:56 6802 1

原创 pandas使用get_dummies进行one-hot编码

离散特征的编码分为两种情况：1、离散特征的取值之间没有大小的意义，比如color：[red,blue],那么就使用one-hot编码2、离散特征的取值有大小的意义，比如size:[X,XL,XXL],那么就使用数值的映射{X:1,XL:2,XXL:3}使用pandas可以很方便的对离散型特征进行one-hot编码import pandas as pddf = pd.DataFra

2016-10-17 09:30:41 80705 5

原创 xgboost cross_validation&自定义目标函数和评价函数&base_score参数

1、Xgboost参数的选择：base_score：对于所有样本预测为正样本的全局偏置（the initial prediction score of all instances, global bia）。如果迭代次数够多，改变这个参数对结果不会有影响。经验值：将base_score设定为#(正样本)/#(所有样本),对结果没有多少影响,但是可以减少迭代的次数。2、Xgboos

2016-10-11 19:58:36 18781 5

原创 XGBoost Stopping to Avoid Overfitting(early_stopping_rounds )

XGBoost模型和其他模型一样，如果迭代次数过多，也会进入过拟合。表现就是随着迭代次数的增加，测试集上的测试误差开始下降。当开始过拟合或者过训练时，测试集上的测试误差开始上升，或者说波动。下面通过实验来说明这种情况：下面实验数据的来源：https://archive.ics.uci.edu/ml/datasets/Pima+Indians+Diabetes# monitor traini

2016-10-10 14:33:22 12988 2

原创 feature_names mismatch XGBoost错误解析

feature_names mismatch 的错误就是训练集和测试集的特征个数不一致导致的。一、a.csv:最大小标是5。所以,训练集的特征维数就是6b.csv:最大小标是4。所以,训练集的特征维数就是5所以,就是训练集和测试集的训练特征的维数不一致，就会报错。二、a.csv:最大小标是4。所以,训练集的特征维数就是5b.csv:最

2016-10-06 13:44:36 14408 2

原创神经网络学习率下降&平方误差和交叉熵的差异

1、从BP算法来分析神经网络学习率下降的问题：并且：说明：对于神经网络的中间层，除了输出层以外，在某些情况下，梯度会下降到接近于0，是无法避免的。但是，对于输出层而言，通过学习合适的误差函数，我们能避免，输出层的梯度为0.其实，我们理想的情况下是，当神经网络的输出与标准值误差比较大时，希望梯度会比较大，这样的话，参数更新的步伐比较大

2016-10-01 16:21:21 3633