python数据挖掘
文章平均质量分 57
messiran10
这个作者很懒,什么都没留下…
展开
-
【Kaggle练习赛】之Digit Recognizer
Kaggle是国外的一项数据挖掘赛事,近期阿里并没有开办赛事,所以准备先拿Kaggle的练习赛来热热身,顺便学习一下scikit-learn这个开源库的使用。Kaggle入门可以参见 http://blog.csdn.net/u012162613/article/details/41929171 一.问题描述The goal in this competition is to take an im原创 2016-01-15 11:32:11 · 732 阅读 · 0 评论 -
【数据挖掘实战】之天猫移动推荐比赛
前言:去年曾经参加过天猫移动推荐比赛。但是当时报名之后实验室安排了其他的新任务,导致这个比赛只是在最后几天粗略的做了一下,然后也只提交了一次结果。没能好好地做这个比赛也是我的一个遗憾。现在回过头来再尝试去做这个比赛,就当练练手了。一.基本思路题目的训练数据包含了抽样出来的一定量用户在一个月时间(11.18~12.18)之内的移动端行为数据(D),评分数据是这些用户在这个一个月之后的一天(12.19)原创 2016-02-23 21:20:06 · 1508 阅读 · 0 评论 -
【机器学习算法】之KNN算法的实现
为了加深对机器学习算法的理解,以及熟悉python,pandas,scikit-learn。现在自己实现一下主要的机器学习算法,程序记录如下:knn类的实现程序:import numpy as np import pandas as pd import random as rd import csvfrom sklearn import preprocessingclass knn:原创 2016-02-26 16:51:06 · 800 阅读 · 0 评论 -
64位Python大数据挖掘--环境搭建
之前装的是python 32位。然后在处理大规模数据集如阿里移动推荐比赛的训练集的时候会出现memory的问题。所以这次准备花些时间升级python,再重新装那些库。记录如下:我的电脑环境:WIN7 641.安装64位的python2.7.10http://www.veryhuo.com/down/html/113061.html2.安装pip参照 http://w原创 2016-02-26 12:38:28 · 2100 阅读 · 2 评论 -
【数据挖掘实战】之kaggle练习赛titanic
之前基本完成了pandas基础知识的学习,现在结合实际工程实例来进一步理解巩固pandas的用法。参考博客资料:http://www.cnblogs.com/north-north/p/4353365.html一.读取数据df = pd.read_csv('train.csv',header=0)使用pandas的read_csv函数可以轻松读取csv文件的内容。在读取了数据文原创 2016-02-20 17:07:57 · 2193 阅读 · 0 评论 -
【Kaggle练习赛】之Titanic: Machine Learning from Disaster
一.题目描述The sinking of the RMS Titanic is one of the most infamous shipwrecks in history. On April 15, 1912, during her maiden voyage, the Titanic sank after colliding with an iceberg, killing 1502 out原创 2016-01-20 17:21:21 · 1967 阅读 · 0 评论 -
Pandas学习笔记(二)
chapter2:http://nbviewer.jupyter.org/github/jvns/pandas-cookbook/blob/v0.1/cookbook/Chapter%202%20-%20Selecting%20data%20&%20finding%20the%20most%20common%20complaint%20type.ipynb 注意讲述如何获取一个datafr原创 2016-02-20 11:28:55 · 483 阅读 · 0 评论 -
Pandas学习笔记(一)
最近在做Kaggle的练习赛,发现大家都在用pandas这个python数据分析的库来处理数据和提取特征。调研了一下Pandas,发现这个库真得非常方便。如果使用这个库来处理原始数据和提取特征,那么会大大提升工作效率。接下来准备花些时间学习一下这个库的使用。Lesson1 参考资料: http://nbviewer.jupyter.org/urls/bitbucket.org/hrojas/l原创 2016-01-22 11:43:58 · 929 阅读 · 0 评论 -
《利用python 进行数据分析》要点记录
很多技术书籍读完就忘,现在想想是由于没有做好要点记录。现在阅读技术书籍的时候,将一些个人认为比较重要的知识点记录下来,这样以后需要的时候翻看博客即可。numpy基础:numpy库的相关函数都是基于ndarray这个数据结构进行的,理解这个数据结构的一些用法至关重要。ndarray可以视为特殊的数组,python常用的列表数据结构等可以转换成array结构。array结构的一个很原创 2016-02-19 20:56:20 · 721 阅读 · 0 评论 -
【机器学习算法】之logistic回归
为了加深对机器学习算法的理解,以及熟悉python,pandas,scikit-learn。现在自己实现一下主要的机器学习算法,程序记录如下:logistic回归算法的实现程序:from numpy import *from sklearn import preprocessing from sklearn import cross_validation def load_data_set(原创 2016-03-05 15:27:08 · 774 阅读 · 0 评论 -
【机器学习算法】之朴素贝叶斯的实现
为了加深对机器学习算法的理解,以及熟悉python,pandas,scikit-learn。现在自己实现一下主要的机器学习算法,程序记录如下:决策树类的实现程序:from numpy import *def loadDataSet(): postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],原创 2016-03-05 11:22:51 · 533 阅读 · 0 评论 -
Vs2013安装python插件
最近给电脑重装了一次系统,并且改为使用VS2013。重装系统后还没有去安装python的诸多环境,今天花了一点时间搭建好了python的开发环境,记录相关工具包的下载路径如下:1.安装python 2.7.11https://www.python.org/downloads/2.安装numpyhttp://sourceforge.net/projects/numpy/files原创 2016-01-11 15:42:16 · 5508 阅读 · 0 评论 -
【机器学习算法】之决策树算法的实现
为了加深对机器学习算法的理解,以及熟悉python,pandas,scikit-learn。现在自己实现一下主要的机器学习算法,程序记录如下:决策树类的实现程序:import numpy as np import pandas as pd import random as rd import re from sklearn import tree from sklearn imp原创 2016-02-29 19:53:05 · 542 阅读 · 0 评论