数据挖掘
水墨小龙虾
2012-----北京蓝汛
2014-----M1905
2014-----猎豹移动
展开
-
决策树
决策树定义:决策树(Decision Tree)是一种简单但是广泛使用的分类器。通过训练数据构建决策树,可以高效的对未知的数据进行分类。优点:决策树模型可以读性好,具有描述性,有助于人工分析;效率高,决策树只需要一次构建,反复使用,每一次预测的最大计算次数不超过决策树的深度。 建立决策树开始,所有记录看作一个节点遍历每个变量的每一种分割方式,找到最好的分割点分割成两个节点N1和N2对N原创 2015-09-06 22:34:52 · 1093 阅读 · 0 评论 -
数据挖掘概述
数据挖掘绪论什么是数据挖掘 是从大量数据中挖掘有趣模式和知识的过程。可以挖掘的数据类型数据库数据数据仓库事务数据其他类型数据 时间相关(股票)、空间(地图)、超文本和多媒体(视频和音频)等可以挖掘的模式类型 总体分类:预测任务描述任务 细分:类/概念描述:特征化和区分挖掘频繁模式、关联和相关性用于预测分析的分类和回归聚类分析离群点分析使用技术统计学机器学习数据库原创 2015-09-06 22:34:21 · 1410 阅读 · 0 评论 -
机器学习入门
定义如果一个计算机程序针对某类任务T的用P衡量的性能根据经验E来自我完善,那么我们称这个计算机程序在从经验E中学习,针对某类任务T,它的性能用P来衡量。原创 2015-10-09 20:50:59 · 609 阅读 · 0 评论 -
使用python进行数据分析
重要的python库numpy提供了以下功能: 1.多维数组对象ndarray 2.支持数组及其元素的数学运算函数 3.读取数据集的工具pandas用来快速处理结构化数据matplotlib用于绘制图表scipy解决科学计算问题的包集合ipython计算和开发环境ipython基础1.tab键自动完成。需要安装readline或者pyreadline库。 2.内省。变量前面或后面加上?就可以原创 2015-11-12 20:26:15 · 951 阅读 · 0 评论 -
matplotlib简明教程
简介第一个例子import matplotlib.pyplot as pltplt.plot([1,3,2,4]) #这里画第一条线,只设置了纵坐标,横坐标默认为N-1x=range(6)plt.plot(x,[i**2 for i in x]) #这里画第二条线,分别指定了x,y轴的值plt.plot(x,[i**1.5 for i in x],x,[i**0.5 for i in x])原创 2015-12-21 21:55:04 · 800 阅读 · 0 评论 -
sklearn技巧
分桶import pandas.core.algorithms as algosimport pandas as pdbins = algos.quantile(numpy.unique(train_data[item]), numpy.linspace(0, 1, 10))train_data[item] = pd.tools.tile._bins_to_cuts(train_data[it原创 2017-04-07 10:25:58 · 1412 阅读 · 0 评论