geellin-CSDN博客

原创新手kaggle比赛总结之一

这是参加的第二个kaggle的比赛，其与前一阵子Expedia比赛很相似，其预测目标集合都是非常大的。这是比赛入口：[https://www.kaggle.com/c/facebook-v-predicting-check-ins](https://www.kaggle.com/c/facebook-v-predicting-check-ins)1、关于赛题比赛题目要求是预测登入

2016-06-30 09:59:11 3873

原创 python大规模数据处理技巧之三：数据库操作篇

这篇文章总结基于python的数据库操作。将数据库的操作与python中的pandas模块结合起来，能够实现高效的数据处理与快速的数据读取。1、利用pandas写入MySQL数据库1.1 dataframe输出到mysql示例过程：以下是将一个csv数据文件写入数据库的过程：使用MySQLdb连接（MySQLdb的安装可见：python包的各种安装问题汇总），使用pandas输出

2016-06-29 09:40:11 2872

原创 python大规模数据处理技巧之二：机器学习中常用操作

1、数据预处理随机化操作机器学习中的常用随机化操作中可以使用random包做不重复随机数生成，以此生成的随机数作为数据集下标去截取相应数据集。下面这句简单有效的代码可以帮助实现基本所有的随机化预处理操作。import randomsamp_ids = [i for i in sorted(random.sample(range(nItem),

2016-06-21 10:28:33 4396

面对读取上G的数据，python不能像做简单代码验证那样随意，必须考虑到相应的代码的实现形式将对效率的影响。如下所示，对pandas对象的行计数实现方式不同，运行的效率差别非常大。虽然时间看起来都微不足道，但一旦运行次数达到百万级别时，其运行时间就根本不可能忽略不计了：故接下来的几个文章将会整理下渣渣在关于在大规模数据实践上遇到的一些问题，并且给予一些技巧的总结，有错误之处望指正。一、外部csv文件

2016-06-16 09:14:57 32202

原创 python包的各种安装问题汇总

1、Linux 下安装python软件包（pip、nose、virtualenv、distribute ）：参考文献： http://blog.csdn.net/my2010sam/article/details/18315687 http://blog.csdn.net/ab198604/article/details/8681851 linux下安装setupt

2016-06-15 17:26:05 957

原创 python编译错误的积累

1、代码编辑时的常见错误： 1、unindent does not match any outer indentation level 有的语句的缩进不是用tab，而是直接用了几个空格代替编译时出了问题 2、syntaxError：Non-ASCII character ‘\xe8’ in file…: 在文件的开头添加下面的两行 #!/usr/bin/env p

2016-04-09 22:36:16 741

原创 k-近邻算法学习

一、概念与原理 K最近邻(k-Nearest Neighbour，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。

2016-04-09 22:17:28 573

原创 BP神经网络的自适应步长问题

BP中文名为误差后向传播算法，其是针对前馈神经网络的常用训练算法。BP的算法原理资料很多，这里就不一一赘述。一、算法的思考与改进 BP算法虽然很强大，但是其收敛速度慢，训练时间长、容易落入局部最优值等缺点一直为人诟病。而对于BP算法的改进方法有如：自适应步长、增加动量项等。固定步长：如下对于这是简单的线性数据拟合，差不到200+次迭代神经网络才收敛：调整策略1：

2016-03-08 19:38:50 11906 2

asdfg4381的博客