- 博客(26)
- 资源 (3)
- 收藏
- 关注
原创 机器学习-数据可视化
#画3D散点图import numpy as npimport matplotlib.pyplot as pltfrom mpl_toolkits.mplot3d import Axes3D#生成一个空白图像fig = plt.figure()ax = fig.add_subplot(111, projection = '3d')n = 250#生成lambda函数来生成给定范围
2018-01-31 16:21:46 1424
原创 机器学习-SVM分类器
import numpy as npimport matplotlib.pyplot as pltfrom sklearn.cross_validation import train_test_splitfrom sklearn.svm import SVCfrom sklearn.metrics import classification_report#加载输入文件中的多变量数据d
2018-01-31 15:21:22 351
原创 机器学习-估算收入阶层
from sklearn import preprocessingfrom sklearn.naive_bayes import GaussianNBfrom sklearn.cross_validation import train_test_splitfrom sklearn.metrics import classification_reportimport numpy as np
2018-01-31 13:28:44 1866
原创 机器学习-贝叶斯分类器
from sklearn.naive_bayes import GaussianNBfrom logistic_regression import plot_classifierimport numpy as npimport matplotlib.pyplot as pltX = []y = []f = open('E:\MachineLearning\CodeBook\data_m
2018-01-30 17:25:01 507
原创 机器学习-逻辑回归分类器
import numpy as npfrom sklearn import linear_modelimport matplotlib.pyplot as plt#画图函数画出数据点和边界def plot_classifier(classifier, X, y): # 定义图形的取值范围 x_min, x_max = min(X[:, 0]) - 1.0, max(X[:,
2018-01-30 16:39:46 489
原创 机器学习-估算房屋价格
import numpy as npfrom sklearn.tree import DecisionTreeRegressorfrom sklearn.metrics import classification_reportfrom sklearn.metrics import mean_squared_error,explained_variance_scorefrom sklearn
2018-01-30 15:11:57 1427
原创 机器学习-创建岭回归器
线性回归的主要问题是对异常值敏感。在真实世界的数据收集过程中,经常会遇到错误的度量结果。而线性回归使用的是普通最小二乘法,其目标是使平方误差最小化。这时,由于异常误差的绝对值很大,因此破坏整个模型。普通最小二乘法在建模的时候会考虑每个数据点的影响,为了避免这个问题,我们引入正则化项的系数作为阈值来消除异常值的影响。这个方法被称为岭回归。#打开文件,获取数据import sysimport
2018-01-30 14:13:00 316
原创 机器学习-创建线性回归器
#打开文件,获取数据import sysimport numpy as npfrom sklearn.linear_model import LinearRegressionimport sklearn.metrics as smimport matplotlib.pyplot as pltX = []y = []f = open('E:\MachineLearning\CodeB
2018-01-30 11:55:42 587
原创 机器学习-标记编码方法
在监督学习中,经常需要处理各种各样的标记。这些标记可能是数字和单词。如果标记是数字,那么算法可以直接使用它们,但是,许多情况下,标记都需要以人们可理解的形式存在,因此,通常会用单词标记训练数据集。标记编码就是要把单词标记转换成数值形式。具体代码如下所示:#导入预处理程序包from sklearn import preprocessing#定义一个标记编码器label_encoder =
2018-01-30 10:20:11 2555
原创 规则化
#输入训练值和目标值X_train = [[6],[8],[10],[14],[18]]y_train = [[7],[9],[13],[17.5],[18]]#导入线性分类器from sklearn.linear_model import LinearRegressionregressor = LinearRegression()regressor.fit(X_train, y_tr
2018-01-29 21:18:11 389
原创 机器学习-特征筛选
冗余的特征虽然不会影响到模型的性能,不过却使得CPU的计算做了无用功。比如,主成分分析主要作用于去除多余的那些线性相关的特征组合,原因在于这些冗余的特征组合并不会对模型训练有更多贡献。特征筛选与PCA这类通过选择主成分对特征进行重建方法略有区别:对于PCA而言,我们经常无法解释重建后的特征;但是特征筛选不存在对特征值的修改,而更加侧重于寻找那些对模型的性能提升较大的少量特征。#泰坦尼克号沉
2018-01-26 20:02:12 3626
原创 机器学习-特征提取(二)
文本数据进行处理时,有些文本不是结构化存储的,处理这样的数据,比较常用的文本特征表示方法为词袋法,不考虑词语出现的顺序,只是将训练文本中每个出现过的词汇单独视为一列特征。而特征数值的常见计算方式有两种:CountVectorizer和TfidVectorizer。对于每一条训练文本,CountVectorizer只考虑每种词汇在该条训练文本中出现的频率;而TfidVectorizer除了考量某一词
2018-01-26 16:46:20 1784
原创 机器学习-特征提取(一)
原始数据的种类有很多,除了数字化的信号数据,还有大量符号化的文本。然而,无法将符号化的文本用于任务计算,二是通过某些处理手段,预先将文本量化为特征向量。 有些用符号化表示的数据特征已经相对结构化,并且以字典这种数据结构进行存储。这时使用DictVectorizer对特征进行抽取和量化。#定义一个字典列表measurements = [{'city':'Dubai','tempe
2018-01-26 15:48:46 3040
原创 无监督学习-PCA
import numpy as npimport matplotlib.pyplot as pltimport pandas as pd#使用pandas分别读取训练数据和测试数据digits_train = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/optdigits/optdigits
2018-01-24 17:57:02 1317
原创 聚类学习-轮廓系数
定义轮廓系数(silhouette coefficient) 结合了凝聚度和分离度,其计算步骤如下:对于第 i 个对象,计算它到所属簇中所有其他对象的平均距离,记 ai (体现凝聚度)对于第 i 个对象和不包含该对象的任意簇,计算该对象到给定簇中所有对象的平均距离,记 bi (体现分离度)第 i 个对象的轮廓系数为 si = (bi-ai)/max(ai, bi) /
2018-01-24 14:30:25 37984 2
原创 聚类-K-mean
import numpy as npimport matplotlib as pltimport pandas as pd#使用pandas分别读取训练数据和测试数据digits_train = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/optdigits/optdigits.tra',h
2018-01-24 10:04:06 312
原创 回归学习-回归树
#导入数据from sklearn.datasets import load_bostonboston = load_boston()print(boston.DESCR)#数据分割from sklearn.cross_validation import train_test_splitimport numpy as npX = boston.datay = boston.tar
2018-01-23 21:49:59 264
原创 回归学习-近邻
#导入数据from sklearn.datasets import load_bostonboston = load_boston()print(boston.DESCR)#数据分割from sklearn.cross_validation import train_test_splitimport numpy as npX = boston.datay = boston.tar
2018-01-23 21:40:29 226
原创 回归学习-支持向量机回归
#导入数据from sklearn.datasets import load_bostonboston = load_boston()print(boston.DESCR)#数据分割from sklearn.cross_validation import train_test_splitimport numpy as npX = boston.datay = boston.tar
2018-01-23 21:23:26 1830
原创 回归学习-线性回归
#导入数据from sklearn.datasets import load_bostonboston = load_boston()print(boston.DESCR)#数据分割from sklearn.cross_validation import train_test_splitimport numpy as npX = boston.datay = boston.tar
2018-01-23 20:44:06 248
原创 分类学习-集成学习
#泰坦尼克号沉船事故#泰坦尼克号乘客数据查验import pandas as pd #导入pandas用于数据分析titanic = pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt')titanic.head() #观察前几行数据t
2018-01-23 11:53:03 214
原创 分类学习-决策树
#泰坦尼克号沉船事故#泰坦尼克号乘客数据查验import pandas as pd #导入pandas用于数据分析titanic = pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt')titanic.head() #观察前几行数据t
2018-01-23 11:11:41 233
原创 分类学习-KNN分类
#导入数据from sklearn.datasets import load_irisiris = load_iris() #使用加载器读取数据并且存入变量irisprint(iris.data.shape) #打印数据print(iris.DESCR)#分割数据from sklearn.cross_validation import train_t
2018-01-22 22:30:07 233
原创 分类学习-贝叶斯分类
1、获取数据from sklearn.datasets import fetch_20newsgroups #导入新闻数据抓取器news = fetch_20newsgroups(subset=all)#print(len(news.data))#print(news.data[0])2、数据分割#数据分割from sklearn.cross_validation
2018-01-22 21:06:03 229
原创 分类学习-支持向量机(Scikit-learn)
手写体数字识别1、手写体数据读取from sklearn.datasets import load_digitsdigits = load_digits() #获得的手写体数据图片存储在digits变量中print(digits.data.shape)2、数据分割from sklearn.cross_validation import train_test_split
2018-01-22 20:05:05 264
原创 分类学习-线性分类器
良/恶性乳腺癌肿瘤数据预处理import pandas as pdimport numpy as np#创建特征列表column_names = ['Sample code number','Clump Thickness','Uniformity of Cell Size','Uniformity of Cell Shape', 'Marginal A
2018-01-22 19:26:05 372
C++面试题整理
2018-09-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人