2018年01月_远去的栀子花

原创机器学习-数据可视化

#画3D散点图import numpy as npimport matplotlib.pyplot as pltfrom mpl_toolkits.mplot3d import Axes3D#生成一个空白图像fig = plt.figure()ax = fig.add_subplot(111, projection = '3d')n = 250#生成lambda函数来生成给定范围

2018-01-31 16:21:46 1424

原创机器学习-SVM分类器

import numpy as npimport matplotlib.pyplot as pltfrom sklearn.cross_validation import train_test_splitfrom sklearn.svm import SVCfrom sklearn.metrics import classification_report#加载输入文件中的多变量数据d

2018-01-31 15:21:22 351

原创机器学习-估算收入阶层

from sklearn import preprocessingfrom sklearn.naive_bayes import GaussianNBfrom sklearn.cross_validation import train_test_splitfrom sklearn.metrics import classification_reportimport numpy as np

2018-01-31 13:28:44 1866

原创机器学习-贝叶斯分类器

from sklearn.naive_bayes import GaussianNBfrom logistic_regression import plot_classifierimport numpy as npimport matplotlib.pyplot as pltX = []y = []f = open('E:\MachineLearning\CodeBook\data_m

2018-01-30 17:25:01 507

原创机器学习-逻辑回归分类器

import numpy as npfrom sklearn import linear_modelimport matplotlib.pyplot as plt#画图函数画出数据点和边界def plot_classifier(classifier, X, y): # 定义图形的取值范围 x_min, x_max = min(X[:, 0]) - 1.0, max(X[:,

2018-01-30 16:39:46 489

原创机器学习-估算房屋价格

import numpy as npfrom sklearn.tree import DecisionTreeRegressorfrom sklearn.metrics import classification_reportfrom sklearn.metrics import mean_squared_error,explained_variance_scorefrom sklearn

2018-01-30 15:11:57 1427

原创机器学习-创建岭回归器

线性回归的主要问题是对异常值敏感。在真实世界的数据收集过程中，经常会遇到错误的度量结果。而线性回归使用的是普通最小二乘法，其目标是使平方误差最小化。这时，由于异常误差的绝对值很大，因此破坏整个模型。普通最小二乘法在建模的时候会考虑每个数据点的影响，为了避免这个问题，我们引入正则化项的系数作为阈值来消除异常值的影响。这个方法被称为岭回归。#打开文件，获取数据import sysimport

2018-01-30 14:13:00 316

原创机器学习-创建线性回归器

#打开文件，获取数据import sysimport numpy as npfrom sklearn.linear_model import LinearRegressionimport sklearn.metrics as smimport matplotlib.pyplot as pltX = []y = []f = open('E:\MachineLearning\CodeB

2018-01-30 11:55:42 587

原创机器学习-标记编码方法

在监督学习中，经常需要处理各种各样的标记。这些标记可能是数字和单词。如果标记是数字，那么算法可以直接使用它们，但是，许多情况下，标记都需要以人们可理解的形式存在，因此，通常会用单词标记训练数据集。标记编码就是要把单词标记转换成数值形式。具体代码如下所示：#导入预处理程序包from sklearn import preprocessing#定义一个标记编码器label_encoder =

2018-01-30 10:20:11 2555

原创规则化

#输入训练值和目标值X_train = [[6],[8],[10],[14],[18]]y_train = [[7],[9],[13],[17.5],[18]]#导入线性分类器from sklearn.linear_model import LinearRegressionregressor = LinearRegression()regressor.fit(X_train, y_tr

2018-01-29 21:18:11 389

原创机器学习-特征筛选

冗余的特征虽然不会影响到模型的性能，不过却使得CPU的计算做了无用功。比如，主成分分析主要作用于去除多余的那些线性相关的特征组合，原因在于这些冗余的特征组合并不会对模型训练有更多贡献。特征筛选与PCA这类通过选择主成分对特征进行重建方法略有区别：对于PCA而言，我们经常无法解释重建后的特征；但是特征筛选不存在对特征值的修改，而更加侧重于寻找那些对模型的性能提升较大的少量特征。#泰坦尼克号沉

2018-01-26 20:02:12 3626

文本数据进行处理时，有些文本不是结构化存储的，处理这样的数据，比较常用的文本特征表示方法为词袋法，不考虑词语出现的顺序，只是将训练文本中每个出现过的词汇单独视为一列特征。而特征数值的常见计算方式有两种：CountVectorizer和TfidVectorizer。对于每一条训练文本，CountVectorizer只考虑每种词汇在该条训练文本中出现的频率；而TfidVectorizer除了考量某一词

2018-01-26 16:46:20 1784

原创机器学习-特征提取（一）

原始数据的种类有很多，除了数字化的信号数据，还有大量符号化的文本。然而，无法将符号化的文本用于任务计算，二是通过某些处理手段，预先将文本量化为特征向量。有些用符号化表示的数据特征已经相对结构化，并且以字典这种数据结构进行存储。这时使用DictVectorizer对特征进行抽取和量化。#定义一个字典列表measurements = [{'city':'Dubai','tempe

2018-01-26 15:48:46 3040

原创无监督学习-PCA

import numpy as npimport matplotlib.pyplot as pltimport pandas as pd#使用pandas分别读取训练数据和测试数据digits_train = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/optdigits/optdigits

2018-01-24 17:57:02 1317

原创聚类学习-轮廓系数

定义轮廓系数(silhouette coefficient) 结合了凝聚度和分离度，其计算步骤如下：对于第 i 个对象，计算它到所属簇中所有其他对象的平均距离，记 ai （体现凝聚度）对于第 i 个对象和不包含该对象的任意簇，计算该对象到给定簇中所有对象的平均距离，记 bi （体现分离度）第 i 个对象的轮廓系数为 si = (bi-ai)/max(ai, bi) /

2018-01-24 14:30:25 37984 2

原创聚类-K-mean

import numpy as npimport matplotlib as pltimport pandas as pd#使用pandas分别读取训练数据和测试数据digits_train = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/optdigits/optdigits.tra',h

2018-01-24 10:04:06 312

原创回归学习-回归树

#导入数据from sklearn.datasets import load_bostonboston = load_boston()print(boston.DESCR)#数据分割from sklearn.cross_validation import train_test_splitimport numpy as npX = boston.datay = boston.tar

2018-01-23 21:49:59 264

原创回归学习-近邻

#导入数据from sklearn.datasets import load_bostonboston = load_boston()print(boston.DESCR)#数据分割from sklearn.cross_validation import train_test_splitimport numpy as npX = boston.datay = boston.tar

2018-01-23 21:40:29 226

原创回归学习-支持向量机回归

#导入数据from sklearn.datasets import load_bostonboston = load_boston()print(boston.DESCR)#数据分割from sklearn.cross_validation import train_test_splitimport numpy as npX = boston.datay = boston.tar

2018-01-23 21:23:26 1830

原创回归学习-线性回归

#导入数据from sklearn.datasets import load_bostonboston = load_boston()print(boston.DESCR)#数据分割from sklearn.cross_validation import train_test_splitimport numpy as npX = boston.datay = boston.tar

2018-01-23 20:44:06 248

原创分类学习-集成学习

#泰坦尼克号沉船事故#泰坦尼克号乘客数据查验import pandas as pd #导入pandas用于数据分析titanic = pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt')titanic.head() #观察前几行数据t

2018-01-23 11:53:03 214

原创分类学习-决策树

#泰坦尼克号沉船事故#泰坦尼克号乘客数据查验import pandas as pd #导入pandas用于数据分析titanic = pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt')titanic.head() #观察前几行数据t

2018-01-23 11:11:41 233

原创分类学习-KNN分类

#导入数据from sklearn.datasets import load_irisiris = load_iris() #使用加载器读取数据并且存入变量irisprint(iris.data.shape) #打印数据print(iris.DESCR)#分割数据from sklearn.cross_validation import train_t

2018-01-22 22:30:07 233

原创分类学习-贝叶斯分类

1、获取数据from sklearn.datasets import fetch_20newsgroups #导入新闻数据抓取器news = fetch_20newsgroups(subset=all)#print(len(news.data))#print(news.data[0])2、数据分割#数据分割from sklearn.cross_validation

2018-01-22 21:06:03 229

原创分类学习-支持向量机（Scikit-learn）

手写体数字识别1、手写体数据读取from sklearn.datasets import load_digitsdigits = load_digits() #获得的手写体数据图片存储在digits变量中print(digits.data.shape)2、数据分割from sklearn.cross_validation import train_test_split

2018-01-22 20:05:05 264

原创分类学习-线性分类器

良/恶性乳腺癌肿瘤数据预处理import pandas as pdimport numpy as np#创建特征列表column_names = ['Sample code number','Clump Thickness','Uniformity of Cell Size','Uniformity of Cell Shape', 'Marginal A

2018-01-22 19:26:05 372

u012967763的专栏

原创机器学习-数据可视化

原创机器学习-SVM分类器

原创机器学习-估算收入阶层

原创机器学习-贝叶斯分类器

原创机器学习-逻辑回归分类器

原创机器学习-估算房屋价格

原创机器学习-创建岭回归器

原创机器学习-创建线性回归器

原创机器学习-标记编码方法

原创规则化

原创机器学习-特征筛选

原创机器学习-特征提取（二）

原创机器学习-特征提取（一）

原创无监督学习-PCA

原创聚类学习-轮廓系数

原创聚类-K-mean

原创回归学习-回归树

原创回归学习-近邻

原创回归学习-支持向量机回归

原创回归学习-线性回归

原创分类学习-集成学习

原创分类学习-决策树

原创分类学习-KNN分类

原创分类学习-贝叶斯分类

原创分类学习-支持向量机（Scikit-learn）

原创分类学习-线性分类器

C++面试题整理

STM32驱动5110

java输入输出流

空空如也