机器学习
yangxuejunwinner
励志成为一名优秀的大数据分析师!
展开
-
机器学习 -- 模型集成与调优
一、数据集介绍1. 样本介绍本数据集为患者乳腺癌患病检测样本,共有569个,它的前两列为唯一的ID号和诊断结果(M= malignant,B=benign),它的3-> 32列为实数值特征。2. 读入数据,查看样本import pandas as pddf=pd.read_csv('http://archive.ics.uci.edu/ml/machine-learning-databases/b原创 2016-11-06 09:32:09 · 2521 阅读 · 1 评论 -
【机器学习实战】决策树预测Titanic遇难者生还情况
一、导入数据#导入pandas用于数据分析import pandas as pd#利用pandas的read_csv模块直接从互联网手机泰坦尼克号乘客数据titanic = pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt')#观察前几行数据titanic.head()二、分析数原创 2017-03-05 11:49:38 · 7708 阅读 · 0 评论 -
【机器学习实战】美国波斯顿房价预测
一、读入数据及描述#1.读入数据from sklearn.datasets import load_boston#从读取的房价数据存储在boston变量中boston=load_boston()#输出数据描述print(boston.DESCR)二、数据分割及样本构建#数据分割from sklearn.cross_validation import train_test_splitimp原创 2017-03-11 16:33:36 · 9310 阅读 · 0 评论 -
【机器学习实战】Loan Status
一、LoanStatus案例介绍数据集变量: 预测变量: Loan_Status贷款是否成功评价指标: Cross_validation Score (ROC曲线–AUC得分)数据集大小 训练集样本数:614 测试集样本数:367二、查看数据集1.导入Python数据挖掘库import pandas as pdimport numpy as npimport matplotlib原创 2016-11-26 15:59:16 · 3407 阅读 · 1 评论 -
Scikit-learn Cookbook (三) --- Postmodel Workflow
stratified k-fold ---- 等分布抽样grid-search ---- 调参random-gridSearch ---随机调参原创 2016-11-18 12:35:08 · 799 阅读 · 0 评论 -
机器学习算法 --- 用Python原生码实现Logistic回归
Sigmoid函数 Sigmoid函数的输入记为z,由下面公式得出: 梯度上升法(有的也叫做梯度下降法,只是符号不一样) Python Logistic代码from numpy import *#打开文本文件并逐行读取,x0=1,每行前两个值为x1,x2,第三个值是数据对应的类别标签def loadDataSet(): dataMat = []; labelMat = []原创 2016-07-31 20:33:48 · 918 阅读 · 0 评论 -
机器学习算法----KNN K近邻
一、机器学习基础1、机器学习的主要任务是分类,另一项任务是回归 2、目标变量是机器学习算法的预测结果 分类 算法: 目标变量–标称型 回归算法: 目标变量–连续性 3、两套独立的样本集:训练数据和测试数据二、K-近邻算法(KNN)工作原理: python代码# -*- coding: cp936 -*-"""Created on Sun Jul 31 11:13原创 2016-07-31 15:33:42 · 454 阅读 · 0 评论 -
机器学习案例1---A journey through Titanic
// 1.Imports 引入Python库// pandasimport pandas as pdfrom pandas import Series,DataFrame//#2. numpy,matplotlib,seabornimport numpy as npimport matplotlib.pyplot as pltimport seaborn as sns #数据可视化模块原创 2016-09-22 14:25:45 · 1999 阅读 · 0 评论 -
Scikit-learn Cookbook (二) --- Classifying Data with scikit-learn
Doing Basic classifications with Decision Trees原创 2016-11-16 14:06:39 · 851 阅读 · 0 评论 -
【机器学习实战】网格搜索--贝叶斯新闻文本分类器调优
#对文本分类的朴素贝叶斯模型的超参数组合进行网格搜索#从sklearn.datasets中导入20类新闻文本抓取器from sklearn.datasets import fetch_20newsgroupsimport numpy as np#抓取新闻数据news=fetch_20newsgroups(subset='all')#数据集分割from sklearn.cross_valid原创 2017-03-12 13:57:07 · 2177 阅读 · 0 评论