机器学习
文章平均质量分 70
459817216
在读硕士,研究方向机器学习
展开
-
K近邻回归模型对Boston房价进行预测,同时对性能进行评估(1.使用普通的算术平均法2.考虑距离差异进行加权平均)
from sklearn.datasets import load_bostonfrom sklearn.cross_validation import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom sklearn.neighbors import KNeighborsRegressorfr原创 2017-11-02 10:24:07 · 1127 阅读 · 0 评论 -
利用SVC(Support Vector Classifier)对digits数据进行分类
from sklearn.datasets import load_digitsfrom sklearn.cross_validation import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom sklearn.svm import LinearSVCfrom sklearn.metri原创 2017-10-25 14:29:03 · 1315 阅读 · 0 评论 -
利用回归树对Boston房价进行预测,并对结果进行评估
from sklearn.cross_validation import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom sklearn.tree import DecisionTreeRegressorfrom sklearn.metrics import mean_squared_error,原创 2017-11-02 10:56:40 · 4350 阅读 · 1 评论 -
集成模型(回归)对Boston数据进行训练并对数据做出预测
from sklearn.datasets import load_bostonfrom sklearn.cross_validation import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom sklearn.ensemble import RandomForestRegressor,Ex原创 2017-11-02 16:23:23 · 2087 阅读 · 0 评论 -
利用贝叶斯分类器对fetch_20newsgroups数据集进行分类
from sklearn.datasets import fetch_20newsgroupsfrom sklearn.cross_validation import train_test_splitfrom sklearn.feature_extraction.text import CountVectorizerfrom sklearn.naive_bayes import Mu原创 2017-10-26 08:54:44 · 3286 阅读 · 0 评论 -
利用KNC对iris数据进行分裂及预测
from sklearn.datasets import load_irisfrom sklearn.cross_validation import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom sklearn.neighbors import KNeighborsClassifierfro原创 2017-10-26 14:30:33 · 302 阅读 · 0 评论 -
K-Means算法过程及代码实现,并对结果使用ARI进行评估
'''K-means算法过程及代码实现1.首先,随机布置K个特征空间内的点作为初始的聚类中心2.然后,对于根据每个数据的特征向量,从K个聚类中心中寻找距离最近的一个,并且把该数据标记为从属这个聚类中心3.接着,在所有的数据都被标记过聚类中心之后,根据这些数据新分配的类簇,重新对K个聚类中心做计算4.如果一轮下来,所有的数据点从属的聚类中心与上一次的分配的类簇没有变化,那么可以迭代停原创 2017-11-03 11:24:06 · 3882 阅读 · 0 评论 -
Python机器学习小案例源码 -- 骨科疾病预测
#内容为实现小象学院的相关代码#数据连接https://www.kaggle.com/uciml/biomechanical-features-of-orthopedic-patientsimport pandas as pdimport numpy as npimport seaborn as snsimport matplotlibimport matplotlib.pyplot as plt...原创 2018-04-03 16:30:10 · 1278 阅读 · 2 评论 -
利用鸢尾花数据,解释并不是特征越多越好
#首先导入我们需要的包from sklearn import datasetsimport numpy as npfrom sklearn.cross_validation import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom sklearn.linear_model import Perceptro...原创 2018-05-21 18:29:24 · 1618 阅读 · 2 评论 -
使用LogisticRegression和SGDClassifier对良/恶性肿瘤进行分类,并计算出准确率召回率和F1的值
# -*- coding: utf-8 -*-"""Created on Tue Oct 24 10:08:40 2017@author: liuyajun"""import pandas as pdimport numpy as npfrom sklearn.cross_validation import train_test_splitfrom原创 2017-10-24 16:55:01 · 1585 阅读 · 0 评论 -
使用原始的Titanic数据,通过特征筛选,一步步提升性能(特征如何提取)
# coding=gbk#使用Titanic数据集,通过特征筛选的方法一步步提升决策树的预测性能import pandas as pdfrom sklearn.cross_validation import train_test_split , cross_val_scorefrom sklearn.feature_extraction import DictVectorizer原创 2017-11-09 17:35:18 · 521 阅读 · 0 评论 -
如何在去掉空数据及如何在matplotlib中显示数据线性拟合
自己自学机器学习用Python实现,希望志同道合的朋友加入我们一起学习一起进步。原创 2017-10-11 09:04:20 · 2006 阅读 · 0 评论 -
K-means算法--“肘部”观察法用于粗略的估计合理的类簇个数
'''K-means聚类模型所采用的迭代算法,直观易懂,并且非常实用,但是有俩大缺陷。1,容易收敛到局部最优。2需要预先设定簇的数量(因为开始无法准确的确定簇的数量,可以采用“肘部“观察法去大致估计簇的数量)'''import numpy as npfrom sklearn.cluster import KMeansfrom scipy.spatial.distance imp原创 2017-11-07 11:19:11 · 4186 阅读 · 0 评论 -
集成分类模型简介
集成分类器主要分为俩种:1.利用相同的训练数据同时搭建多个独立的模型,然后通过投票的方式,以少数服从多数的原则作出最终的分类决策。具有代表性的模型有随机森林分类器(Random Forest Classifier),它是在相同的数据上同时搭建多棵决策树(Decision Tree),与普通的决策树不同的是,普通的决策树会根据每个维度对预测结果的影响程度进行排序(通过采用信息熵),进而决定不同特原创 2017-10-30 10:00:23 · 2032 阅读 · 0 评论 -
利用随机森林和梯度替身决策树对titanic数据进行分类,并对结果进行分析
import pandas as pdfrom sklearn.cross_validation import train_test_splitfrom sklearn.feature_extraction import DictVectorizerfrom sklearn.tree import DecisionTreeClassifierfrom sklearn.ensembl原创 2017-10-30 15:45:07 · 914 阅读 · 0 评论 -
使用线性回归模型LinearRegression和SGDRegression分别对美国波士地区房价进行预测
from sklearn.datasets import load_bostonfrom sklearn.cross_validation import train_test_splitimport numpy as npfrom sklearn.preprocessing import StandardScalerfrom sklearn.linear_model import原创 2017-10-30 17:26:18 · 1957 阅读 · 0 评论 -
对良/恶性肿瘤的预测python代码实现
import pandas as pdimport matplotlib.pyplot as pltimport numpy as npfrom sklearn.linear_model import LogisticRegressiondf_train = pd.read_csv(r'E:\BaiduNetdiskDownload\Datasets\Breast-Canc原创 2017-10-23 17:20:58 · 3480 阅读 · 7 评论 -
使用CountVectorizer和TfidfVectorizer对fetch_20newsgroups数据进行分类,并对是否使用停用词进行对比(精确度)
from sklearn.datasets import fetch_20newsgroupsfrom sklearn.cross_validation import train_test_splitfrom sklearn.feature_extraction.text import CountVectorizerfrom sklearn.naive_bayes import Mul原创 2017-11-09 10:27:07 · 1483 阅读 · 0 评论 -
使用三种不同的核函数(回归)对Boston房价进行预测,同时对测试数据做出预测
from sklearn.datasets import load_bostonfrom sklearn.svm import SVRfrom sklearn.cross_validation import train_test_splitfrom sklearn.metrics import r2_score,mean_squared_error,mean_absolute_erro原创 2017-11-01 08:48:26 · 3938 阅读 · 0 评论