自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 资源 (3)
  • 收藏
  • 关注

原创 机器学习-数据可视化

#画3D散点图import numpy as npimport matplotlib.pyplot as pltfrom mpl_toolkits.mplot3d import Axes3D#生成一个空白图像fig = plt.figure()ax = fig.add_subplot(111, projection = '3d')n = 250#生成lambda函数来生成给定范围

2018-01-31 16:21:46 1424

原创 机器学习-SVM分类器

import numpy as npimport matplotlib.pyplot as pltfrom sklearn.cross_validation import train_test_splitfrom sklearn.svm import SVCfrom sklearn.metrics import classification_report#加载输入文件中的多变量数据d

2018-01-31 15:21:22 351

原创 机器学习-估算收入阶层

from sklearn import preprocessingfrom sklearn.naive_bayes import GaussianNBfrom sklearn.cross_validation import train_test_splitfrom sklearn.metrics import classification_reportimport numpy as np

2018-01-31 13:28:44 1866

原创 机器学习-贝叶斯分类器

from sklearn.naive_bayes import GaussianNBfrom logistic_regression import plot_classifierimport numpy as npimport matplotlib.pyplot as pltX = []y = []f = open('E:\MachineLearning\CodeBook\data_m

2018-01-30 17:25:01 507

原创 机器学习-逻辑回归分类器

import numpy as npfrom sklearn import linear_modelimport matplotlib.pyplot as plt#画图函数画出数据点和边界def plot_classifier(classifier, X, y): # 定义图形的取值范围 x_min, x_max = min(X[:, 0]) - 1.0, max(X[:,

2018-01-30 16:39:46 489

原创 机器学习-估算房屋价格

import numpy as npfrom sklearn.tree import DecisionTreeRegressorfrom sklearn.metrics import classification_reportfrom sklearn.metrics import mean_squared_error,explained_variance_scorefrom sklearn

2018-01-30 15:11:57 1427

原创 机器学习-创建岭回归器

线性回归的主要问题是对异常值敏感。在真实世界的数据收集过程中,经常会遇到错误的度量结果。而线性回归使用的是普通最小二乘法,其目标是使平方误差最小化。这时,由于异常误差的绝对值很大,因此破坏整个模型。普通最小二乘法在建模的时候会考虑每个数据点的影响,为了避免这个问题,我们引入正则化项的系数作为阈值来消除异常值的影响。这个方法被称为岭回归。#打开文件,获取数据import sysimport

2018-01-30 14:13:00 316

原创 机器学习-创建线性回归器

#打开文件,获取数据import sysimport numpy as npfrom sklearn.linear_model import LinearRegressionimport sklearn.metrics as smimport matplotlib.pyplot as pltX = []y = []f = open('E:\MachineLearning\CodeB

2018-01-30 11:55:42 587

原创 机器学习-标记编码方法

在监督学习中,经常需要处理各种各样的标记。这些标记可能是数字和单词。如果标记是数字,那么算法可以直接使用它们,但是,许多情况下,标记都需要以人们可理解的形式存在,因此,通常会用单词标记训练数据集。标记编码就是要把单词标记转换成数值形式。具体代码如下所示:#导入预处理程序包from sklearn import preprocessing#定义一个标记编码器label_encoder =

2018-01-30 10:20:11 2555

原创 规则化

#输入训练值和目标值X_train = [[6],[8],[10],[14],[18]]y_train = [[7],[9],[13],[17.5],[18]]#导入线性分类器from sklearn.linear_model import LinearRegressionregressor = LinearRegression()regressor.fit(X_train, y_tr

2018-01-29 21:18:11 389

原创 机器学习-特征筛选

冗余的特征虽然不会影响到模型的性能,不过却使得CPU的计算做了无用功。比如,主成分分析主要作用于去除多余的那些线性相关的特征组合,原因在于这些冗余的特征组合并不会对模型训练有更多贡献。特征筛选与PCA这类通过选择主成分对特征进行重建方法略有区别:对于PCA而言,我们经常无法解释重建后的特征;但是特征筛选不存在对特征值的修改,而更加侧重于寻找那些对模型的性能提升较大的少量特征。#泰坦尼克号沉

2018-01-26 20:02:12 3626

原创 机器学习-特征提取(二)

文本数据进行处理时,有些文本不是结构化存储的,处理这样的数据,比较常用的文本特征表示方法为词袋法,不考虑词语出现的顺序,只是将训练文本中每个出现过的词汇单独视为一列特征。而特征数值的常见计算方式有两种:CountVectorizer和TfidVectorizer。对于每一条训练文本,CountVectorizer只考虑每种词汇在该条训练文本中出现的频率;而TfidVectorizer除了考量某一词

2018-01-26 16:46:20 1784

原创 机器学习-特征提取(一)

原始数据的种类有很多,除了数字化的信号数据,还有大量符号化的文本。然而,无法将符号化的文本用于任务计算,二是通过某些处理手段,预先将文本量化为特征向量。      有些用符号化表示的数据特征已经相对结构化,并且以字典这种数据结构进行存储。这时使用DictVectorizer对特征进行抽取和量化。#定义一个字典列表measurements = [{'city':'Dubai','tempe

2018-01-26 15:48:46 3040

原创 无监督学习-PCA

import numpy as npimport matplotlib.pyplot as pltimport pandas as pd#使用pandas分别读取训练数据和测试数据digits_train = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/optdigits/optdigits

2018-01-24 17:57:02 1317

原创 聚类学习-轮廓系数

定义轮廓系数(silhouette coefficient) 结合了凝聚度和分离度,其计算步骤如下:对于第 i 个对象,计算它到所属簇中所有其他对象的平均距离,记 ai (体现凝聚度)对于第 i 个对象和不包含该对象的任意簇,计算该对象到给定簇中所有对象的平均距离,记 bi (体现分离度)第 i 个对象的轮廓系数为 si = (bi-ai)/max(ai, bi)  /

2018-01-24 14:30:25 37984 2

原创 聚类-K-mean

import numpy as npimport matplotlib as pltimport pandas as pd#使用pandas分别读取训练数据和测试数据digits_train = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/optdigits/optdigits.tra',h

2018-01-24 10:04:06 312

原创 回归学习-回归树

#导入数据from sklearn.datasets import load_bostonboston = load_boston()print(boston.DESCR)#数据分割from sklearn.cross_validation import train_test_splitimport numpy as npX = boston.datay = boston.tar

2018-01-23 21:49:59 264

原创 回归学习-近邻

#导入数据from sklearn.datasets import load_bostonboston = load_boston()print(boston.DESCR)#数据分割from sklearn.cross_validation import train_test_splitimport numpy as npX = boston.datay = boston.tar

2018-01-23 21:40:29 226

原创 回归学习-支持向量机回归

#导入数据from sklearn.datasets import load_bostonboston = load_boston()print(boston.DESCR)#数据分割from sklearn.cross_validation import train_test_splitimport numpy as npX = boston.datay = boston.tar

2018-01-23 21:23:26 1830

原创 回归学习-线性回归

#导入数据from sklearn.datasets import load_bostonboston = load_boston()print(boston.DESCR)#数据分割from sklearn.cross_validation import train_test_splitimport numpy as npX = boston.datay = boston.tar

2018-01-23 20:44:06 248

原创 分类学习-集成学习

#泰坦尼克号沉船事故#泰坦尼克号乘客数据查验import pandas as pd #导入pandas用于数据分析titanic = pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt')titanic.head() #观察前几行数据t

2018-01-23 11:53:03 214

原创 分类学习-决策树

#泰坦尼克号沉船事故#泰坦尼克号乘客数据查验import pandas as pd #导入pandas用于数据分析titanic = pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt')titanic.head() #观察前几行数据t

2018-01-23 11:11:41 233

原创 分类学习-KNN分类

#导入数据from sklearn.datasets import load_irisiris = load_iris() #使用加载器读取数据并且存入变量irisprint(iris.data.shape) #打印数据print(iris.DESCR)#分割数据from sklearn.cross_validation import train_t

2018-01-22 22:30:07 233

原创 分类学习-贝叶斯分类

1、获取数据from sklearn.datasets import fetch_20newsgroups #导入新闻数据抓取器news = fetch_20newsgroups(subset=all)#print(len(news.data))#print(news.data[0])2、数据分割#数据分割from sklearn.cross_validation

2018-01-22 21:06:03 229

原创 分类学习-支持向量机(Scikit-learn)

手写体数字识别1、手写体数据读取from sklearn.datasets import load_digitsdigits = load_digits() #获得的手写体数据图片存储在digits变量中print(digits.data.shape)2、数据分割from sklearn.cross_validation import train_test_split

2018-01-22 20:05:05 264

原创 分类学习-线性分类器

良/恶性乳腺癌肿瘤数据预处理import pandas as pdimport numpy as np#创建特征列表column_names = ['Sample code number','Clump Thickness','Uniformity of Cell Size','Uniformity of Cell Shape', 'Marginal A

2018-01-22 19:26:05 372

C++面试题整理

在找工作的时候整理的面试常问的一些问题,包括C++,操作系统,数据结构,数据库,算法,Linux,网络,非常有用。先后拿到中兴、联咏科技、中电28所、华为的offer,不是能力不足被BATJ刷掉,是只投了西安的公司

2018-09-24

STM32驱动5110

stm32F407驱动诺基亚5110LCD显示屏,用的是软件模拟的SPI接口,没有用自身带的SPI硬件接口,有利于不同平台间的移植

2017-07-07

java输入输出流

java学习中输入输出流的学习资料,可能不完整,但是一定是正确的。

2013-11-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除