自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 资源 (6)
  • 收藏
  • 关注

原创 python 编码问题总结

1、简而言之,Python 2.x里字符串有两种:str和Unicode前者到后者要decode,后者到前者要encode,'utf-8'为例:str.decode('utf-8') -> Unicodestr 总结:Unicode就像是中间桥梁,utf-8编码,GBK编码都可以decode成unicode编码,而unicode编码可以encode成utf-8。编码其实就分

2016-10-28 23:04:05 448

原创 pandas contact 之后,一定要记得用reset_index去处理index,不然容易出现莫名的逻辑错误

# -*- coding: utf-8 -*-import pandas as pdimport sysdf1 = pd.DataFrame({ 'A': ['A0', 'A1', 'A2', 'A3'], 'B': ['B0', 'B1', 'B2', 'B3'], 'C': ['C0', 'C1', '

2016-10-25 23:51:00 73978 2

原创 安装jpype出现_jpype错误的解决方案

说明:主要是执行该python文件调用了anaconda的python解释器。所以报错:后来使用/user/bin python 调用该py文件就可以执行成功。说明:#!/usr/bin/python 也是默认调用/usr/bin/python,这样通过./a.py

2016-10-18 12:56:56 6802 1

原创 pandas使用get_dummies进行one-hot编码

离散特征的编码分为两种情况:1、离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one-hot编码2、离散特征的取值有大小的意义,比如size:[X,XL,XXL],那么就使用数值的映射{X:1,XL:2,XXL:3}使用pandas可以很方便的对离散型特征进行one-hot编码import pandas as pddf = pd.DataFra

2016-10-17 09:30:41 80705 5

原创 xgboost cross_validation&自定义目标函数和评价函数&base_score参数

1、Xgboost参数的选择:base_score:对于所有样本预测为正样本的全局偏置(the initial prediction score of all instances, global bia)。如果迭代次数够多,改变这个参数对结果不会有影响。经验值:将base_score设定为#(正样本)/#(所有样本),对结果没有多少影响,但是可以减少迭代的次数。2、Xgboos

2016-10-11 19:58:36 18781 5

原创 XGBoost Stopping to Avoid Overfitting(early_stopping_rounds )

XGBoost模型和其他模型一样,如果迭代次数过多,也会进入过拟合。表现就是随着迭代次数的增加,测试集上的测试误差开始下降。当开始过拟合或者过训练时,测试集上的测试误差开始上升,或者说波动。下面通过实验来说明这种情况:下面实验数据的来源:https://archive.ics.uci.edu/ml/datasets/Pima+Indians+Diabetes# monitor traini

2016-10-10 14:33:22 12988 2

原创 feature_names mismatch XGBoost错误解析

feature_names mismatch 的错误就是训练集和测试集的特征个数不一致导致的。一、a.csv:最大小标是5。所以,训练集的特征维数就是6b.csv:最大小标是4。所以,训练集的特征维数就是5所以,就是训练集和测试集的训练特征的维数不一致,就会报错。二、a.csv:最大小标是4。所以,训练集的特征维数就是5b.csv:最

2016-10-06 13:44:36 14408 2

原创 神经网络学习率下降&平方误差和交叉熵的差异

1、从BP算法来分析神经网络学习率下降的问题:并且:           说明:对于神经网络的中间层,除了输出层以外,在某些情况下,梯度会下降到接近于0,是无法避免的。但是,对于输出层而言,通过学习合适的误差函数,我们能避免,输出层的梯度为0.其实,我们理想的情况下是,当神经网络的输出与标准值误差比较大时,希望梯度会比较大,这样的话,参数更新的步伐比较大

2016-10-01 16:21:21 3633

转载 反向传播:整体描述 反向传播算法的起源

2016-10-01 10:08:13 1063

转载 为什么说反向传播算法很高效?

2016-10-01 10:03:51 2876

转载 反向传播算法

2016-10-01 10:02:04 460

转载 四个基本方程的证明

2016-10-01 10:00:48 553

转载 反向传播背后的四个基本等式

2016-10-01 09:57:29 1022

转载 关于损失函数的两个假设

说明:

2016-10-01 09:47:04 793

转载 热身:一个基于矩阵的快速计算神经网络输出的方法

转载自 哈工大SCIR热身:一个基于矩阵的快速计算神经网络输出的方法

2016-10-01 09:41:14 604

推荐系统经典文章

推荐系统,协同滤波,矩阵分解,经典论文及其对应的PPT

2015-10-27

machine learning week9 作业答案

异常检测(Anomaly Detection),推荐系统(Recommender Systems)

2015-04-27

machine learining Dimensionality Reduction (Week 8) exercise

machine learining Dimensionality Reduction (Week 8) exercise K-Means Clustering and PCA

2015-04-22

machine learning Regularization (Week 3) exercise

machine learning Regularization (Week 3) exercise

2015-04-20

machine learning week7 作业解答

couresa machine learning week7 作业解答

2015-04-19

挖金子小游戏

挖金子小游戏,借鉴别人的,适合C++,win32入门

2014-11-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除