![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
JingleLee123
Be stupid,be hungry.
展开
-
机器学习2-python基础综合实践-线性逻辑斯蒂回归分类器
数据和代码http://pan.baidu.com/s/1dENAUTr代码"""Created on July 9, 2018@author : Li Guojing"""import pandas as pdimport matplotlib.pyplot as pltimport numpy as npfrom sklearn.linear_model ..原创 2018-07-09 19:19:01 · 423 阅读 · 0 评论 -
机器学习12-回归树
模型介绍 回归树在选择不同特征作为分裂节点的策略上,与决策树的思路类似。不同之处在于,回归树叶节点的数据类型不是离散型,而是连续型。决策树每个叶节点依照训练数据表现的概率倾向决定了其最终的预测类别;而回归树的叶节点却是一个个具体的值,从预测值连续这个意义上严格地讲,回归树不能称为“回归算法”。因为回归树的叶节点返回的是“一团”训练数据的均值而不是具体的、连续的预测值。代码fr...原创 2018-07-27 11:17:39 · 227 阅读 · 0 评论 -
机器学习13-回归-集成模型
模型介绍使用普通随机森林(Ramdom Forests)和提升树模型的回归器,以及极端随机森林(Extremely Randomized Trees)。与普通的随机森林模型不同的是,极端随机森林在每当构建一棵树的分裂节点的时候,不会任意地选取特征;而是先随机收集一部分特征,然后利用信息熵(Information Gain)和基尼不纯性(Gini Impurity)等指标挑选最佳的节点特征。...原创 2018-07-27 12:36:14 · 812 阅读 · 0 评论 -
机器学习16-特征提升
特征抽取特征筛选原创 2018-08-10 12:01:56 · 974 阅读 · 0 评论 -
机器学习15-特征降维PCA
codeimport pandas as pdimport numpy as npfrom sklearn.decomposition import PCAfrom matplotlib import pyplot as pltdigits_train = pd.read_csv('http://archive.ics.uci.edu/ml/machine-learning-data...原创 2018-08-07 16:00:48 · 282 阅读 · 0 评论 -
机器学习18-超参数搜索
网格搜索(GridSearch)(GridSearch)(GridSearch)网格搜索是对多种超参数组合的空间进行暴力搜索。 class sklearn.model_selection.GridSearchCV(estimator, param_grid, scoring=None, fit_params=None, n_jobs=1, iid=True, refit=True, c...原创 2018-08-19 16:06:07 · 829 阅读 · 0 评论 -
机器学习17-模型正则化
欠拟合与过拟合L1L1L_1范数正则化L2L2L_2范数正则化原创 2018-08-17 19:50:43 · 1035 阅读 · 0 评论 -
机器学习19-自然语言处理包(NLTK)
使用词袋法(Bag-of-Words)对示例文本进行特征向量化from sklearn.feature_extraction.text import CountVectorizersent1 = 'The cat is waking in the bedroom'sent2 = 'A dog was running across the kitchen'count_vec = Co...原创 2018-08-23 21:20:32 · 571 阅读 · 0 评论 -
机器学习20-词向量(Word2Vec)技术
使用gensim工具包,利用20类新闻文本(20newsgroups)进行词向量训练; 并且通过抽样几个词汇,查验Word2Vec技术是否可以在不借助任何语言学知识的前提下,寻找到相似的其他词汇。from sklearn.datasets import fetch_20newsgroupsfrom bs4 import BeautifulSoupimport nltk, refrom ...原创 2018-08-24 10:47:31 · 1352 阅读 · 0 评论 -
机器学习11-回归-K近邻
模型介绍K近邻模型只是借助周围K个最近训练样本的目标是数值,对待测样本的回归值进行决策。自然,也衍生出衡量待测样本回归值的不同方式,即到底是对K个近邻目标数值使用普通的算术平均算法,还是同时考虑距离的差异进行加权平均。代码使用两种不同配置的K近邻回归模型对美国波士顿房价数据进行回归预测和评估from sklearn.svm import SVRfrom sklearn.d...原创 2018-07-27 10:25:38 · 273 阅读 · 0 评论 -
机器学习8-分类学习-集成模型
模型介绍 集成(Ensemble)分类模型便是综合考量多个分类器的预测结果,从而做出决策。 这种“综合考量”的方式大体分为两种: 一种是利用相同的训练数据同时搭建多个独立的分类模型,然后通过投票的方式,以少数服从多数的原则作出最终的分类决策。比较具有代表性的模型为随机森林分类器(Random Forest Classifier),即在相同训练数据上同时搭建多棵决策树(Decisi...原创 2018-07-15 15:31:27 · 1550 阅读 · 0 评论 -
机器学习7-分类学习-决策树
模型介绍决策树是通过一系列规则对数据进行分类的过程。是一种逼近离散函数值的方法。 首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策树对新数据进行分析。决策树算法构造决策树来发现数据中蕴涵的分类规则。如何构造精度高、规模小的决策树是决策树算法的核心内容。数据描述使用数据来自于历史上一件家喻户晓的灾难性事件:泰坦尼克号沉船事故。1912年,当时隶属于英国的世界级豪...原创 2018-07-15 11:14:59 · 276 阅读 · 0 评论 -
机器学习3-分类学习-线性分类器
分类学习二分类:判断是非多分类: 在多于两个类别中选一个多标签分类: 判断一个样本是否同时属于多个不同类别线性分类器是一种假设特征与分类结果存在线性关系的模型。这个模型通过累加计算每个维度的特征与各自权重的乘积来帮助类别决策。 - 数据 https://archive.ics.uci.edu/ml/machine-learning-databases/breast-can...原创 2018-07-10 15:09:41 · 596 阅读 · 0 评论 -
机器学习4-分类学习-支持向量机分类
分类模型最终都是要应用在未知分布的测试数据上,因此我们更加关注如何最大限度地为未知分布的数据提供足够的待预测空间,需要为“稍稍偏离”的样本提供足够的“容忍度”。支持向量机分类根据训练样本的分类,搜索所有可能的线性分类器中最佳的那个。 决定分类直线的位置的样本并不是所有训练数据,而是其中的两个空间间隔最小的两个不同类别的数据点,而我们把这种可以用来真正帮助决策最优线性分类模型的...原创 2018-07-10 17:38:23 · 612 阅读 · 0 评论 -
机器学习9-回归-线性回归模型
数据描述:“美国波士顿地区房价预测”性能测评from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error平均绝对误差(MAE)回归值与真实值之间的误差绝对值。 SSabs=∑i=1m|yi−yipredict|SSabs=∑i=1m|yi−ypredicti|SS_{abs} =...原创 2018-07-23 16:30:05 · 220 阅读 · 0 评论 -
机器学习5-分类学习-朴素贝叶斯
模型介绍\quad 朴素贝叶斯分类器会单独考量每一维度特征被分类的条件概率,进而综合这些概率并对其所在的特征向量做出分类预测。因此,这个模型的基本数学假设是:各个维度上的特征被分类的条件概率之间是相互独立的。 \quad如果采用概率模型来表示,则定义x=<x1,x2,⋯,xn>x=<x1,x2,⋯,xn&amp原创 2018-07-12 11:49:57 · 369 阅读 · 0 评论 -
机器学习1-设计预测实验
监督学习尝试从具有标记的训练数据集中推断出预测函数无监督学习尝试在没有标记的数据中找出隐藏的结构设计预测实验将数据分成训练集和测试集(建议划分比例为70:30)。然后将测试数据放在一旁,切勿将其用于准备数据模型。仅使用训练数据构建数据模型。将新模型应用于测试数据。使用混淆矩阵或其他质量保证工具评估模型质量。如果模型通过测试,则结束,否则重复以上三个步骤直到模型通...原创 2018-07-07 17:29:27 · 518 阅读 · 0 评论 -
机器学习10-回归-支持向量机回归
from sklearn.svm import SVRfrom sklearn.datasets import load_bostonfrom sklearn.model_selection import train_test_splitimport numpy as npfrom sklearn.preprocessing import StandardScalerfrom sklea...原创 2018-07-25 15:07:50 · 601 阅读 · 0 评论 -
机器学习14-数据聚类
前言 无监督学习(Unsupervised Learning)着重于发现数据本身的分布特点。与监督学习(Supervised Learning)不同,无监督学习不需要对数据进行标记。这样,在节省大量人工的同时,也让可以利用的数据规模变得不可限量。 从功能角度讲,无监督学习模型可以帮助我们发现数据的“群落”,同时也可以寻找“离群”的样本;另外,对于特征维度特别高的样本,我们同样可以通过无...原创 2018-07-28 20:17:24 · 1415 阅读 · 1 评论 -
机器学习6-分类学习-K近邻
模型介绍假设我们有一些携带分类标记的训练样本,分布于特征空间中。找到待分类的样本在特征空间中距离最近的K个已标记样本作为参考,找到的K个已标记样本属于哪一类的比例高,那我们就认为待分类样本就属于这一类。数据描述利用KKK近邻算法对生物物种进行分类,并且使用最为著名的“鸢尾”(Iris)数据集。代码#读取Iris数据集细节资料#从sklearn.datasets导入...原创 2018-07-15 09:16:03 · 310 阅读 · 0 评论 -
机器学习21-XGBoost模型
提升(Boosting)分类器隶属于集成学习模型。它的基本思想是把成百上千个分类准确率较低的树模型组合起来,成为一个准确率很高的模型。这个模型的特点在于不断迭代,每次迭代就生成一颗新的树。对于如何在每一步生成合理的树,大家提出了很多的方法,比如我们在集成(分类)模型中提到的梯度提升树(Gradient Tree Boosting)。它在生成每一棵树的时候采用梯度下降的思想,以之前生成的所有决策...原创 2018-08-25 09:09:44 · 738 阅读 · 0 评论