机器学习
pynash123
这个作者很懒,什么都没留下…
展开
-
scikit-learning 多项式回归应用房价预测
将sklearn.datasets中的load_boston房价数据用多项式回归进行训练,并画出学习曲线import matplotlib.pyplot as pltimport numpy as npfrom sklearn.datasets import load_bostonfrom sklearn.model_selection import train_test_splitfr...原创 2019-04-14 12:27:01 · 1061 阅读 · 0 评论 -
scikit-learning 决策树用于泰坦尼克号生还数据
import matplotlib.pyplot as pltfrom sklearn.model_selection import train_test_splitimport numpy as npimport pandas as pdfrom sklearn.tree import DecisionTreeClassifierdef read_data(file_path): ...原创 2019-04-18 19:30:58 · 247 阅读 · 0 评论 -
scikit-learning k临近算法分类学习应用之肿瘤预测
k临近应用 : 肿瘤预测import matplotlib.pyplot as pltimport numpy as npimport pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.neighbors import KNeighborsClassifier, RadiusNeig...原创 2019-04-08 23:25:40 · 203 阅读 · 0 评论 -
scikit-learning 线性回归学习
import matplotlib.pyplot as pltimport numpy as npfrom sklearn.linear_model import LinearRegressionfrom sklearn.preprocessing import PolynomialFeaturesfrom sklearn.pipeline import Pipelinefrom skl...原创 2019-04-12 11:51:58 · 183 阅读 · 0 评论 -
scikit-learning k临近算法学习之k-d tree
k-d tree即k-dimensionaltree,常用来作空间划分及近邻搜索,是二叉空间划分树的一个特例。通常,对于维度为k,数据点数为N的数据集,k-d tree适用于N>>2^k的情形,kd树是基于欧式距离度量的。k-d树是每个节点都为k维点的二叉树。所有非叶子节点可以视作用一个超平面把空间分区成两个半空间。节点左边的子树代表在超平面左边的点,节点右边的子树代表在超平面右边的...原创 2019-04-11 20:01:19 · 425 阅读 · 0 评论 -
scikit-learning k临近算法回归学习
#生成sin散点数据,然后加上扰动,用k临近回归去预测#进行回归时,找到临近的k个样本,采用普通的算术平均算法或考虑距离差异的加权平均等输出from sklearn.neighbors import KNeighborsRegressorimport matplotlib.pyplot as pltimport numpy as np# 生成训练样本dot_num = 100x = ...原创 2019-04-07 21:30:27 · 659 阅读 · 0 评论 -
scikit-learning k临近算法分类学习
用make_blobs函数生成类似聚类数据,然后用k临近去预测import matplotlib.pyplot as pltimport numpy as npfrom sklearn.datasets.samples_generator import make_blobsfrom sklearn.neighbors import KNeighborsClassifier# 通过mak...原创 2019-04-07 20:36:44 · 412 阅读 · 0 评论 -
类别型特征的常见处理方法
-类别型特征类别型特征(Categorical Feature)主要是指只在有限选项内取值的特征。例如性别(男、女)、成绩等级(A、B、C)等。通常以字符串形式输入,除了决策树等少数模型能直接处理字符串形式的输入,逻辑回归、支持向量机等模型的输入必须是数值型特征才能正确工作。-独热编码(One-hot Encoding)常用于处理特征不同类别间具有大小关系的数据。例如成绩等级(A、B、C),...原创 2019-04-07 15:10:52 · 2816 阅读 · 1 评论 -
数据预处理: 数值特征归一化
归一化的必要性若不进行归一化处理,分析出来的结果显然会倾向于数值差别比较大的特征。想要得到更为准确的结果,就需要进行特征归一化(Normalization)处理,使各指标处于同一数值量级。例如 身高 1.8M 体重 50KG 体重会对结果产生较大的影响归一化的方法1 线性函数归一化(Min-Max Scaling)对原始数据进行线性变换,使结果映射到[0, 1]的范围,实...原创 2019-04-07 15:07:49 · 1057 阅读 · 0 评论 -
随机梯度下降优化算法的对比以及常见选择
数据特征是稀疏时 :使用自适应学习速率SGD优化方法(Adagrad、Adadelta、RMSprop与Adam),因为不需要在迭代过程中对学习速率进行人工调整。 RMSprop是Adagrad的一种扩展,与Adadelta类似,但是改进版的Adadelta使用RMS去自动更新学习速率,并且不需要设置初始学习速率。而Adam是在RMSprop基础上使用动量与偏差修正。RMSprop、Adade...原创 2019-06-11 19:46:17 · 1259 阅读 · 0 评论