数据分析
lhaniey
不积跬步,无以至千里
展开
-
matplotlib 基本绘图方法
matplotlib 文档说明http://matplotlib.org/gallery/index.html交互式绘图https://plot.ly/python/plotly:可视化工具中的github,相比于matplotlib更加简单,图形更加漂亮,同时兼容matplotlib和pandas使用用法:简单,照着文档写即可plotly:可视化工具中的github,相比...原创 2019-03-06 09:50:36 · 477 阅读 · 0 评论 -
python实战+数据分析+决策树
利用决策树预测泰坦尼克号乘客的生存率数据集来源:https://github.com/cystanford/Titanic_Data主要包括两部分数据:训练集train.csv 和测试集 test.csv运用sklearn中运用DecisionTreeClassifier 分类器来进行预测到目前为止,sklearn 中只实现了 ID3 与 CART决策树,在构造 Decisio...原创 2019-04-18 11:26:44 · 1526 阅读 · 1 评论 -
数据挖掘十大算法
根据算法不同的目的,可以分为四类分类算法:C4.5,朴素贝叶斯,SVM,KNN,Adaboost,SART聚类算法:KNN,EM关联分析:Apriori连接分析:PageRank...原创 2019-05-09 11:13:07 · 285 阅读 · 0 评论 -
机器学习之SVM介绍
一、SVMsupport vector machine,在机器学习中,SVM 既可以做回归,也可以做分类器。SVM 主要是帮我们找到一个超平面,使不同的样本分开,并且是各个样本集到超平面的距离之和最大化。支持向量就是距离超平面最近的样本点,确定了支持向量也就确定了超平面。二、硬间隔、软间隔和非线性 SVM硬间隔:在满足线性可分的基础上,分类完全正确,不存在分类出错的情况...原创 2019-05-09 15:53:27 · 957 阅读 · 0 评论 -
机器学习之SVM实战
思路:利用SVM模型,对乳腺癌进行预测数据集来源:点击此处进行下载数据表一共包括32字段,代表含义如下:1、利用以下代码,可以对数据进行初步的探索from sklearn import svmimport pandas as pd #加载数据集data=pd.read_csv('./data.csv')pd.set_option('display.max_...原创 2019-05-10 12:45:24 · 1445 阅读 · 0 评论 -
KNN算法
KNN:近朱者赤,近墨者黑,既可以用于分类,也可以用于回归分析。K:一般可以通过交叉验证来确定推荐系统算法:TD-IDF,协同过滤,Apriori 算法,在样本量比较少的情况下可以使用KNN做推荐算法计算距离的方法:欧式距离,曼哈顿距离,闵科夫斯基距离,切比雪夫距离,余弦距离(用于兴趣推荐)运用sklearn自带用的数据集——手写字识别实战练习# -*- coding: ut...原创 2019-05-10 20:54:33 · 243 阅读 · 0 评论