机器学习
pynash123
这个作者很懒,什么都没留下…
展开
-
scikit-learning 多项式回归应用房价预测
将sklearn.datasets中的load_boston房价数据用多项式回归进行训练,并画出学习曲线 import matplotlib.pyplot as plt import numpy as np from sklearn.datasets import load_boston from sklearn.model_selection import train_test_split fr...原创 2019-04-14 12:27:01 · 1060 阅读 · 0 评论 -
scikit-learning 决策树用于泰坦尼克号生还数据
import matplotlib.pyplot as plt from sklearn.model_selection import train_test_split import numpy as np import pandas as pd from sklearn.tree import DecisionTreeClassifier def read_data(file_path): ...原创 2019-04-18 19:30:58 · 247 阅读 · 0 评论 -
scikit-learning k临近算法分类学习应用之肿瘤预测
k临近应用 : 肿瘤预测 import matplotlib.pyplot as plt import numpy as np import pandas as pd from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsClassifier, RadiusNeig...原创 2019-04-08 23:25:40 · 203 阅读 · 0 评论 -
scikit-learning 线性回归学习
import matplotlib.pyplot as plt import numpy as np from sklearn.linear_model import LinearRegression from sklearn.preprocessing import PolynomialFeatures from sklearn.pipeline import Pipeline from skl...原创 2019-04-12 11:51:58 · 183 阅读 · 0 评论 -
scikit-learning k临近算法学习之k-d tree
k-d tree即k-dimensionaltree,常用来作空间划分及近邻搜索,是二叉空间划分树的一个特例。通常,对于维度为k,数据点数为N的数据集,k-d tree适用于N>>2^k的情形,kd树是基于欧式距离度量的。 k-d树是每个节点都为k维点的二叉树。所有非叶子节点可以视作用一个超平面把空间分区成两个半空间。节点左边的子树代表在超平面左边的点,节点右边的子树代表在超平面右边的...原创 2019-04-11 20:01:19 · 425 阅读 · 0 评论 -
scikit-learning k临近算法回归学习
#生成sin散点数据,然后加上扰动,用k临近回归去预测 #进行回归时,找到临近的k个样本,采用普通的算术平均算法或考虑距离差异的加权平均等输出 from sklearn.neighbors import KNeighborsRegressor import matplotlib.pyplot as plt import numpy as np # 生成训练样本 dot_num = 100 x = ...原创 2019-04-07 21:30:27 · 659 阅读 · 0 评论 -
scikit-learning k临近算法分类学习
用make_blobs函数生成类似聚类数据,然后用k临近去预测 import matplotlib.pyplot as plt import numpy as np from sklearn.datasets.samples_generator import make_blobs from sklearn.neighbors import KNeighborsClassifier # 通过mak...原创 2019-04-07 20:36:44 · 412 阅读 · 0 评论 -
类别型特征的常见处理方法
-类别型特征 类别型特征(Categorical Feature)主要是指只在有限选项内取值的特征。例如性别(男、女)、成绩等级(A、B、C)等。通常以字符串形式输入,除了决策树等少数模型能直接处理字符串形式的输入,逻辑回归、支持向量机等模型的输入必须是数值型特征才能正确工作。 -独热编码(One-hot Encoding) 常用于处理特征不同类别间具有大小关系的数据。例如成绩等级(A、B、C),...原创 2019-04-07 15:10:52 · 2816 阅读 · 1 评论 -
数据预处理: 数值特征归一化
归一化的必要性 若不进行归一化处理,分析出来的结果显然会倾向于数值差别比 较大的特征。想要得到更为准确的结果,就需要进行特征归一化 (Normalization)处理,使各指标处于同一数值量级。 例如 身高 1.8M 体重 50KG 体重会对结果产生较大的影响 归一化的方法 1 线性函数归一化(Min-Max Scaling) 对原始数据进行线性变换,使结果映射到[0, 1]的范围,实...原创 2019-04-07 15:07:49 · 1053 阅读 · 0 评论 -
随机梯度下降优化算法的对比以及常见选择
数据特征是稀疏时 :使用自适应学习速率SGD优化方法(Adagrad、Adadelta、RMSprop与Adam),因为不需要在迭代过程中对学习速率进行人工调整。 RMSprop是Adagrad的一种扩展,与Adadelta类似,但是改进版的Adadelta使用RMS去自动更新学习速率,并且不需要设置初始学习速率。而Adam是在RMSprop基础上使用动量与偏差修正。RMSprop、Adade...原创 2019-06-11 19:46:17 · 1259 阅读 · 0 评论