彭世瑜的博客

记录我的code历程 个人主页:www.pengshiyu.com

机器学习:基本算法分类体系结构和文章汇总

机器学习 Machine Learning 特征工程 TensorFlow 神经网络 图像识别 自然语言处理 机器学习定义 从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测 算法是核心,数据和计算是基础 掌握算法思想,使用库或框架解决问题 数据类型 离散型数据 计数数据,数据都是整数...

2019-01-26 22:45:35

阅读数 50

评论数 0

机器学习: k-means聚类对数据进行预分类

k-means聚类 非监督学习 把数据划分为k个类别 -知道类别个数 -不知道类别个数 超参数 k = 3 步骤: 1、随机在数据中抽取3个样本,当做3个类别的中心点(k1, k2, k3) 2、计算其余的点分别到这三个中心点的距离, 每一个样本有3个距离(a, b, c) 从中选出举例最近的一个...

2019-01-26 22:41:25

阅读数 67

评论数 0

机器学习:逻辑回归预测癌症数据

逻辑回归公式 hθ(x)=g(θTx)=11+e−θTxh_\theta(x) = g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}}hθ​(x)=g(θTx)=1+e−θTx1​ g(z)=11+e−zg(z) = \frac{1}{1+e^{-z}}g(z)=1+e...

2019-01-25 23:40:40

阅读数 58

评论数 0

机器学习:欠拟合过拟合岭回归预测波士顿房价

欠拟合过拟合 欠拟合: -训练集表现不好,而且训练集以外的数据也表现不好 -原因: -数据特征太少 -交叉验证:训练集结果表现不行 -解决:增加数据特征 过拟合: -训练集表现很好,但在训练集以外的数据集表现不好 -原因: ...

2019-01-25 22:39:43

阅读数 108

评论数 0

机器学习:Sklearn算法选择路径图

Sklearn算法选择路径图 英文版 中文版

2019-01-24 23:36:25

阅读数 38

评论数 0

机器学习:线性回归梯度下降预测波士顿房价

线性回归 分类: 目标值离散 回归: 目标值连续 线性回归:寻找一种能预测的趋势 线性关系: -二维:直线关系 -三维:平面 线性关系定义 y=kx+by = kx + by=kx+b 参数b,偏置项,为了对于单个特征的情况更加通用 参数k,权重 f(x)=w1x1+w2x2+....

2019-01-23 23:27:00

阅读数 40

评论数 0

机器学习:随机森林预测泰坦尼克数据

随机森林 1、集成学习方法 集成学习通过建立几个模型组合来解决单一预测问题 工作原理:生成多个分类器/模型,各自独立地学习和做出预测 这些预测最后结合成单预测,因此优于任何一个单分类做出的预测 2、随机森林 包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定 3、随机森林算法 ...

2019-01-20 23:39:06

阅读数 58

评论数 0

机器学习:信息熵决策树预测泰坦尼克数据

决策树 思想:程序设计中分支结构if-then结构 信息熵 信息的单位:比特 H=−(P1logP1+P2logP2+...+PnlogPn)H = -(P1logP1 + P2logP2 + ... + PnlogPn)H=−(P1logP1+P2logP2+...+PnlogPn) 信息和消除...

2019-01-20 19:30:49

阅读数 70

评论数 0

机器学习:模型选择与调优交叉验证和网格搜索

1、交叉验证cross validation 为了让被评估的模型更加准确可信 将训练数据分为训练集和验证集,分几等份就是几折验证 2、网格搜索grid search 超参数:很多参数需要手动指定 每组超参数都采用交叉验证来进行评估 代码示例 from sklearn.neighbors impo...

2019-01-20 15:22:35

阅读数 69

评论数 0

机器学习:分类模型的评估精确率Presicion和召回率Recall

estimator.score() 准确率:预测结果正确的百分比 混淆矩阵 预测结果Predicted Condition 正确标记 True Condition 预测结果 正例 假例 真实 正例 真正例TP 伪反例FN 结果 假例 伪正例FP 真反例TN T True...

2019-01-20 15:16:52

阅读数 59

评论数 0

机器学习:朴素贝叶斯算法对新闻分类

概率基础 概率定义:一件事情发生的可能性 1、联合概率 包含多个条件,且所有条件同时成立的概率 记作:P(A,B)=P(A)P(B)P(A, B) = P(A)P(B)P(A,B)=P(A)P(B) 2、条件概率 事件A在另一个事件B已经发生的条件下发生的概率 记作:P(A∣B)P(A|B)P(A...

2019-01-17 00:05:53

阅读数 48

评论数 0

机器学习:K-近邻算法对鸢尾花数据进行分类预测

代码示例 # -*- coding: utf-8 -*- from sklearn.neighbors import KNeighborsClassifier from sklearn.model_selection import train_test_split from sklearn.da...

2019-01-16 00:06:06

阅读数 58

评论数 0

机器学习:sklearn数据集简介

算法分类 监督学习 特征值 + 目标值 -分类 目标值是离散数据 -回归 目标值是连续数据 无监督学习 只有特征值 -聚类 数据集 数据 -训练集 80% 70% 75% -测试集 20% 30% 25% 数据拆分: sklearn.model_selection.t...

2019-01-13 22:52:12

阅读数 28

评论数 0

机器学习:数据降维特征选择和主成分分析PCA

数组维度 数据维度:特征数量 1、特征选择 主要方法: Filter 过滤式 (方差variance) Embedded 嵌入式(正则化,决策时) Wrapper 包裹式 神经网络 代码示例 from sklearn.feature_selection import VarianceThresho...

2019-01-13 21:21:26

阅读数 61

评论数 0

机器学习:数据特征预处理缺失值处理

缺失值处理 删除:如果行或列数据缺失值达到一定比例,建议放弃整行或列 插补:填补列的平均值,中位数 numpy数组中的缺失值 nan/NaN 属于float类型 代码示例 from sklearn.preprocessing import Imputer import numpy as np #...

2019-01-13 18:47:46

阅读数 97

评论数 0

机器学习:数据特征预处理归一化和标准化

1、归一化 将原始数据映射到一个区间[0,1] 特征同等重要:归一化处理 目的:使得某一个特征对最终结果不对造成更大的影响 缺点:对于异常点处理不好,容易影响最大值最小值,鲁棒性较差(稳定性),只适合精确小数据场景 代码示例 # -*- coding: utf-8 -*- from sklear...

2019-01-12 21:52:36

阅读数 40

评论数 0

机器学习:特征工程字典特征和文本特征抽取

1、数据集 mysql 性能瓶颈,读取速度 pandas 读取工具 numpy释放GIL cpython 协程 sklearn 2、数据集结构 特征值 + 目标值 3、机器学习 重复值 不需要进行去重 缺失值 特殊处理 4、特征工程定义 将原始数据转换为更好代表预测模型的潜在问题的特征的过程,从而...

2019-01-11 23:53:44

阅读数 76

评论数 0

数学:简单理解指数、对数、乘方、开方

定义 指数: y=axy=ax y = a^x 对数 y=logaxy=loga⁡x y = \log_a x 举例 假设 a=2a=2 a=2 乘法: 1×2×2×2=81×2×2×2=8 1 \times 2 \times 2 \times 2 = 8 除法: ...

2018-08-24 13:19:10

阅读数 554

评论数 0

机器学习:SVM(Support Vector Machine)支持向量机简介

SVM(Support Vector Machine): 支持向量机 有监督学习模型 应用:模式识别、分类以及回归分析 SVM的主要思想: 它是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高...

2018-07-25 13:01:59

阅读数 41

评论数 0

机器学习:指数函数和对数函数简单区别

区别 指数函数 对数函数 英文 exponential logarithm 函数 y=a^x (a>0,且a≠1) y=logax(a>0,且a≠1) 定义域 实数集R ...

2018-07-25 12:51:11

阅读数 302

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭