数据挖掘
水墨小龙虾
2012-----北京蓝汛
2014-----M1905
2014-----猎豹移动
展开
-
决策树
决策树定义:决策树(Decision Tree)是一种简单但是广泛使用的分类器。通过训练数据构建决策树,可以高效的对未知的数据进行分类。优点: 决策树模型可以读性好,具有描述性,有助于人工分析; 效率高,决策树只需要一次构建,反复使用,每一次预测的最大计算次数不超过决策树的深度。 建立决策树 开始,所有记录看作一个节点 遍历每个变量的每一种分割方式,找到最好的分割点 分割成两个节点N1和N2 对N原创 2015-09-06 22:34:52 · 1105 阅读 · 0 评论 -
数据挖掘概述
数据挖掘绪论 什么是数据挖掘 是从大量数据中挖掘有趣模式和知识的过程。 可以挖掘的数据类型数据库数据 数据仓库 事务数据 其他类型数据 时间相关(股票)、空间(地图)、超文本和多媒体(视频和音频)等 可以挖掘的模式类型 总体分类:预测任务 描述任务 细分: 类/概念描述:特征化和区分 挖掘频繁模式、关联和相关性 用于预测分析的分类和回归 聚类分析 离群点分析 使用技术统计学 机器学习 数据库原创 2015-09-06 22:34:21 · 1419 阅读 · 0 评论 -
机器学习入门
定义如果一个计算机程序针对某类任务T的用P衡量的性能根据经验E来自我完善,那么我们称这个计算机程序在从经验E中学习,针对某类任务T,它的性能用P来衡量。原创 2015-10-09 20:50:59 · 614 阅读 · 0 评论 -
使用python进行数据分析
重要的python库numpy提供了以下功能: 1.多维数组对象ndarray 2.支持数组及其元素的数学运算函数 3.读取数据集的工具pandas用来快速处理结构化数据matplotlib用于绘制图表scipy解决科学计算问题的包集合ipython计算和开发环境ipython基础1.tab键自动完成。需要安装readline或者pyreadline库。 2.内省。变量前面或后面加上?就可以原创 2015-11-12 20:26:15 · 955 阅读 · 0 评论 -
matplotlib简明教程
简介第一个例子import matplotlib.pyplot as plt plt.plot([1,3,2,4]) #这里画第一条线,只设置了纵坐标,横坐标默认为N-1 x=range(6) plt.plot(x,[i**2 for i in x]) #这里画第二条线,分别指定了x,y轴的值 plt.plot(x,[i**1.5 for i in x],x,[i**0.5 for i in x])原创 2015-12-21 21:55:04 · 803 阅读 · 0 评论 -
sklearn技巧
分桶 import pandas.core.algorithms as algos import pandas as pdbins = algos.quantile(numpy.unique(train_data[item]), numpy.linspace(0, 1, 10)) train_data[item] = pd.tools.tile._bins_to_cuts(train_data[it原创 2017-04-07 10:25:58 · 1431 阅读 · 0 评论