机器学习_望百川归海的博客-CSDN博客

机器学习

关注

文章平均质量分 76

关注数：文章数：29 文章阅读量：108966 文章收藏量：680

作者: 望百川归海

想起来就记录一些，工作后的内容一般记录在语雀私有知识库，有在机器学习、深度学习、多模态大模型训练、部署需要的可私聊；熟悉自动驾驶、医疗等领域，对相机模型，目标跟踪也有工程化经验。

展开

专栏收录文章

提高深度学习(和机器学习)性能的思路

文章目录1. 通过数据提升性能2、通过算法提升性能3. 通过算法调参提升性能4、通过嵌套模型提升性能总结提升思路分为以下4部分，通常来讲，随着列表自上而下，性能的提升也将变小。部分思路只适用于人工神经网络，但是大部分是通用的。足够用来配合其他技术来碰撞出提升模型性能的方法。 (1)通过数据提升性能 (2)通过算法提升性能 (3)通过算法调参提升性能 (4)通过嵌套模型提升性能1. 通过数据提升性能对训练数据和问题定义进行适当改变，能得到很大的性能提升。或许是最大的性能提升。以下是

原创 2021-10-25 11:21:04 · 1380 阅读 · 0 评论
线性判别分析LDA的思想

1、分类原理：分类思想：训练时，设法将训练样本投影到一条直线上，这条直线上，同类样本的投影点尽可能接近，异类样本点的类别中心尽可能远离。预测时，将样本投影到学得的直线上，根据投影点的位置判断其类别。分类过程：一个常见的LDA分类基本思想是假设各个类别的样本数据符合高斯分布，这样利用LDA进行投影后，可以利用极大似然估计计算各个类别投影数据的均值和方差，进而得到该类别高斯分布的概率密度函数。当一个新的样本到来后，我们可以将它投影，然后将投影后的样本特征分别带入各个类别的高斯分布概率密度函数，计算它

原创 2021-10-24 15:23:29 · 1366 阅读 · 0 评论
机器学习的一些数学诠释

涉及到：线性回归、logistic回归和一般回归；支持向量机SVM；K-means聚类算法；神经网络；深度学习LSTM；决策树，集成学习（XGBoost，随机森林）；主成分分析；线性判别分析；典型关联分析；规则化和模型选择；...

原创 2021-10-23 20:34:34 · 1170 阅读 · 0 评论
使用Tensorflow实现MLP进行入侵检测分类

基于KDDCUP99数据集，使用Tensorflow构建MLP，进行入侵检测分类。1、tensorflow理解在Tensorflow中，用计算图来构建网络，用会话来具体执行网络。深入理解了这两点，我想，对于Tensorflow的设计思路，以及运行机制，也就略知一二了。图（tf.Graph）：计算图，主要用于构建网络，本身不进行任何实际的计算。计算图的设计启发是高等数学里面的链式求导法则的图。我们可以将计算图理解为是一个计算模板或者计划书。会话（tf.session）：会话，主

原创 2021-10-18 23:40:55 · 979 阅读 · 0 评论
基于kaggle欧洲国家太阳能发电数据集的太阳能站点效率预测

我们将只保留一个站点，使用 scikit-learn 的基本 ML 模型进行一个月的预测，使用深度学习和tensorflow预测一到两天。性能指标：均方根误差，探索性分析可见，数据集是干净的：没有异常值，没有重复行，也没有缺失值。1、基线模型基线模型得到的结果，将会是其他模型结果的比较基准。import numpy as npimport pandas as pdfrom sklearn.metrics import mean_squared_errorfrom datapre

原创 2021-10-17 16:54:57 · 1920 阅读 · 4 评论
基于kaggle欧洲国家太阳能发电数据集进行聚类分析

数据集初探凤凰股份如果第一个图上没有任何真正的肘部，那么最好的簇 nb k 似乎是 7。肘方法，站点inertias值站点轮廓系数法如果第一个图上没有任何真正的肘部，那么最好的簇 nb k 似乎是 6。肘方法，国家inertias值国家轮廓系数大幅撒2、分析每个集群，每个集群都用一个国家来代表24小时内每个国家太阳能发电站的效率特定某天各国太阳能发电站的效率非空值的站点效率分布（即白天）法国1985到2015的效率分布各国月效率各国周效率各国年效率各国平均效

原创 2021-10-17 10:53:45 · 2548 阅读 · 0 评论
用户登录行为聚类分析

文章目录一、项目说明1、背景2、概述二、登录行为聚类过程1、数据读取：2、数据预处理和参数确定：（1）数据形式（2）初步业务特征选择（3）缺失值处理、标准化（4）聚类簇数选择（5）二次特征选择3、模型训练(2) 训练模型(3) 模型结果输出(4) 迭代聚类(5) 对多次聚类结果进行分析4、模型测试一、项目说明1、背景EDR通常会收集到大量的有关用户登录行为的告警日志，但并不是所有登录行为都是异常的，因此需更准确地辨别哪些登录行为异常行为。2、概述登录行为聚类分析，主要是以EDR所采集的公司内各终端

原创 2021-10-15 19:40:41 · 1504 阅读 · 1 评论
基于逻辑回归的入侵检测

1、简介基于KDDCUP99数据集，利用逻辑回归方法进行入侵检测学习。具体代码参见我的githubhttps://github.com/allrivertosea/KDDCUP99_IDS_LR2、主要步骤第一步，数据预处理：对KDDCUP99原始数据集进行处理，使其成为适合进行学习的形式。进行特征选择，降低维度。第二步，调参：网格搜索最优参数组合。第三步，模型训练与测试：利用训练集进行模型训练，利用测试集进行测试，计算各种评价指标，绘制ROC曲线等。3、具体执行3.1、数据预处理

原创 2021-10-15 19:30:14 · 631 阅读 · 0 评论
关联规则（购物篮分析）

关联规则也称为购物篮分析，最早是为了发现超市销售数据库中不同商品之间的关联关系。常用的关联规则算法：一、Apriori算法核心思想：通过连接，产生候选项与其支持度，通过剪枝生成频繁项集。1、关联规则和频繁项集（1）项集：是项的集合，包含k个项的项集称为k项集，如集合{牛奶，麦片，糖}是一个3项集。项集出现的频率是所有包含项集的事务计数（又称为绝对支持度或支持度计数）。（2）频繁项集：...

原创 2019-12-03 11:52:37 · 3968 阅读 · 0 评论
情感分析之——电商产品评论数据

1、数据挖掘目标对京东平台上的热水器评论进行文本挖掘分析，数据挖掘建模目标如下：（1）、分析某一品牌热水器的用户情感倾向。（2）、从评论文本中挖掘出该品牌热水器的优点与不足。（3）、提炼不同品牌热水器的卖点。2、分析方法及过程本次建模针对京东商城上“美的”品牌热水器的消费者评论数据，在对文本进行基本的机器预处理、中文分词、停用词过滤，然后通过建立包括栈式自编码深度学习、语义网络与LDA...

原创 2019-09-03 10:17:37 · 13751 阅读 · 7 评论
电子商务网站用户行为分析及服务推荐

一、背景介绍1、问题描述本文主要研究对象是某家法律网站，这是家电子商务类大型法律资讯网站，致力为用户提供丰富的法律信息与专业咨询服务，也为律师与律所提供有效的互联网整合营销解决方案，访问量剧增，数据信息量也大幅增长，面对大量信息用户无法及时从中获得自己需要的信息，信息使用效率越来越低；低效的信息供给是无法满足用户需求的，容易流失客户，基于此背景寻求用户行为分析及服务推荐系统开发。问题目标分析...

原创 2019-09-02 16:52:26 · 6145 阅读 · 1 评论
基于矩阵分解的推荐系统

一、基于矩阵分解的推荐算法1、概述基于用户和基于项的协同过滤推荐算法，难以实现大数据量下的实时推荐。这时我们可以使用基于模型的协同过滤算法，矩阵分解（Matrix Factorization,MF）就是其中一种。矩阵分解：将一个矩阵分解为两个或多个矩阵的乘积。mxn—>mxk X kxn非负矩阵分解：一般的矩阵分解，分解的矩阵有正有负。很多实际应用中，负数没有意义，如文本等等。NMF...

原创 2019-09-02 13:08:20 · 2532 阅读 · 2 评论
基于协同过滤的推荐算法

1、推荐系统与推荐问题推荐系统：根据用户的历史行为，挖掘出用户的喜好，为用户推荐与其喜好相符的商品或信息。推荐系统的任务是将信息和用户连接，帮助用户找到感兴趣的信息，让有价值的信息能触达潜在的用户。推荐问题描述：核心问题是为用户推荐与其兴趣相似度比较高的商品。用一函数f(x)计算候选商品与用户之间的相似度。为预测出函数f(x)，可用到的历史数据有：用户的历史行为数据，与该用户有关的其他用户信息...

原创 2019-09-02 10:53:25 · 5210 阅读 · 1 评论
利用Tensorflow实现多层感知器MLP

一、什么是TensorflowTensorFlow 表达了高层次的机器学习计算，大幅简化了第一代系统，并且具备更好的灵活性和可延展性。TensorFlow，简单看就是Tensor和Flow，即意味着Tensor和Flow是TensorFlow最为基础的要素；Tensor意味着data，Flow意味着流动（意味着计算，意味着映射，即数据的流动，数据的计算,数据的映射,同时也体现数据是有向的流动、...

原创 2019-08-12 21:22:09 · 1609 阅读 · 0 评论
利用keras实现多层感知器MLP模型

一、什么是kerasKeras是一个由Python编写的开源人工神经网络库，可以作为Tensorflow、Microsoft-CNTK和Theano的高阶应用程序接口，进行深度学习模型的设计、调试、评估、应用和可视化。Keras的神经网络API是在封装后与使用者直接进行交互的API组件，在使用时可以调用Keras的其它组件。除数据预处理外，使用者可以通过神经网络API实现机器学习任务中的常见操...

原创 2019-08-12 11:21:51 · 5752 阅读 · 0 评论
SVM支持向量机与sklearn支持向量机分类

一、SVM的基本概念1、总览：在之前的机器学习基本知识中，总结了支持向量机的相关基础概念。支持向量机（Support Vector Machine, SVM)是定义在特征空间上间隔最大的线性分类器。它是一种二分类模型，当采用核技巧之后，支持向量机可以用于非线性分类。划分超平面：能将训练集在样本空间中将不同类的样本划分开的超平面，划分超平面可以用wTx+b=0表示，w为法向量，b为超平面相对...

原创 2019-08-06 16:20:59 · 1394 阅读 · 0 评论
sklearn之Model selection and evaluation学习使用

这部分可以结合机器学习之模型评估与选择来阅读，sklearn库的中文地址和英文地址。总共可以分为5部分：交叉验证来评估学习器性能；调整学习器的超参数；模型评估量化预测的质量。模型持久化。验证曲线，绘制分数来评估模型。1、交叉验证来评估学习器的表现下面是典型的交叉验证工作图，最优超参通过第2节的网格搜索得到，将最优超参带入学习模型中，数据集分为训练和测试集，利用训练集再次进行模型训练，然后将训...

原创 2019-07-28 18:30:46 · 1192 阅读 · 0 评论
机器学习之模型评估与选择

一、模型评估与选择分为五部分：1、经验误差及过拟合；2、评估方法‘；3、性能度量’；4、比较检验；5、偏差与方差。1、经验误差与过拟合错误率（error rate）：分类错误的样本数占总样本数。精度（accuracy）：1-错误率。误差（error）：学习器的实际预测输出和样本的真实输出的差异。在训练集上的是训练误差，在新样本上的是泛化误差。过拟合（overfitting）：训练误差小...

原创 2019-07-27 23:34:27 · 1113 阅读 · 0 评论
机器学习的一些基本知识点

将之前学习的一些算法进行回顾，有时间写写

原创 2019-06-10 13:23:47 · 1371 阅读 · 0 评论
机器学习之——线性模型

一、一些理解线性模型的表达式中，权重向量直观表达了各个特征在预测中的重要性。线性的意思就是一系类一次特征的线性组合，二维空间为直线，三维空间为平面，推广到n维空间，这就是广义的线性模型。线性模型易于建模，常见的广义线性模型有：岭回归，lasso回归，逻辑回归，线性判别分析，Elastic Net等。1、逻辑回归...

原创 2019-05-23 18:31:01 · 1035 阅读 · 0 评论
决策树算法原理与sklearn.tree.DecisionTreeClassifier()以及决策树作图

绪论：除线性模型中学习的逻辑斯谛克回归（包括梯度下降等）、多分类问题之外，这部分的分类算法学习主要包括：决策树，贝叶斯分类器，k近邻算法，支持向量机；顺便学习：人工神经网络和聚类。1、决策树决策树（decision tree）也是一种有监督学习算法。以树状图为基础，输出结果为一系列简单实用的规则，故名决策树。可知，决策树就是一系列的if-then语句，它可以用于分类也可以用于回归问题。优点是...

原创 2019-05-23 18:30:18 · 7361 阅读 · 0 评论
利用解的KKTPM值度量其相对于真实最优解集的收敛程度

的到解集的KKTPM值，然后进行局部搜索加强解集的收敛性，有时间会写写

原创 2019-05-23 18:33:44 · 623 阅读 · 0 评论
机器学习之集成学习与sklearn使用

1、个体与集成集成学习（ensemble learning)通过构建并结合多个学习器来完成学习任务，集成学习的一般结构：先产生一组“个体学习器”，再用某种策略将它们结合起来。也称为多分类器系统。（1）同质集成：集成中只包含同种类型的个体学习器，比如神经网络集成中全是神经网络，同质集成中的个体学习器也成为基学习器，相应的算法称为基学习算法。（2）异质集成：集成中可包含不同类型的个体学习器。工...

原创 2019-06-11 11:35:35 · 1021 阅读 · 0 评论
连续属性离散化与sklearn.preprocessing.KBinsDiscretizer

1、连续属性离散化离散化 (Discretization) (有些时候叫量化(quantization) 或分箱(binning)) ，是将连续特征划分为离散特征值的方法。离散化可以把具有连续属性的数据集变换成只有名义属性(nominal attributes)的数据集。2、K-bins 离散化（分箱）KBinsDiscretizer 类使用k个等宽的bins把特征离散化：默认情况下...

原创 2019-07-29 12:48:52 · 11851 阅读 · 0 评论
神经网络基础以及BP算法

2、人工神经网络神经网络的定义：它是一种由具有适应性的简单单元（神经元）组成的并行互连的网络，构成的组织能模拟生物神经系统对真实世界物体所做出的的交互反应。在机器学习讨论的神经网络，是一种神经网络学习。有意思的神经元：在生物中，每个神经元会与其他神经元相连，当该神经元兴奋，就会向其他神经元发送化学物质，进而改变这些神经元的电位，当电位超过某个阈值时，就会被激活为行为状态，转而向其他神经元发送化...

原创 2019-08-11 10:05:55 · 1394 阅读 · 0 评论
CART决策树以及sklearn.tree.DecisionTreeClassifier()使用

注意：scikit-learn 使用 CART 算法的优化版本。2、CART分类树预测预测的过程就是：根据结点指定的属性以及属性值划分，将该样本划分为左右子树，一直到叶结点，找到最终的标签。二、CART树回归基本线性模型中，假设全局的数据之间是线性的，通过拟合所有的样本点，训练得到最终的模型。但是现实中很多问题都是非线性的，处理这类问题时，特征之间的关系不是简单的线性关系，所以不可能用全局...

原创 2019-08-03 21:45:33 · 2969 阅读 · 0 评论
机器学习之降维（特征选择与特征提取）

一、降维技术主要分为两大类：特征选择和特征提取。基本概念：特征选择：我们可以选出原始特征的一个子集。特征提取：通过现有信息进行推演，构造出一个新的特征子空间。为什么要降维：（1）数据的多重共线性导致解的空间不稳定，从而导致模型的泛化能力弱；（2）高维空间样本具有稀疏性，导致模型比较难找到数据特征；（3）过多的变量会妨碍模型查找规律；（4）有时特征矩阵过大，导致计算量比较大，训练时间...

原创 2019-08-03 23:11:34 · 20603 阅读 · 1 评论
逻辑回归以及sklearn.linear_model.LogisticRegression的使用

一、逻辑回归二、sklearn.linear_model.LogisticRegression的使用1、sklearn库提供了逻辑回归模型，连接地址2、class sklearn.linear_model.LogisticRegression参数说明@@@class sklearn.linear_model.LogisticRegression(penalty=’l2’, dual=Fal...

原创 2019-07-27 14:03:00 · 4843 阅读 · 0 评论
K-means聚类以及fuzzy c-means聚类的实现

有时间会写写

原创 2019-05-23 18:32:16 · 1734 阅读 · 0 评论

机器学习

作者: 望百川归海

提高深度学习(和机器学习)性能的思路

线性判别分析LDA的思想

机器学习的一些数学诠释

使用Tensorflow实现MLP进行入侵检测分类

基于kaggle欧洲国家太阳能发电数据集的太阳能站点效率预测

基于kaggle欧洲国家太阳能发电数据集进行聚类分析

用户登录行为聚类分析

基于逻辑回归的入侵检测

关联规则（购物篮分析）

情感分析之——电商产品评论数据

电子商务网站用户行为分析及服务推荐

基于矩阵分解的推荐系统

基于协同过滤的推荐算法

利用Tensorflow实现多层感知器MLP

利用keras实现多层感知器MLP模型

SVM支持向量机与sklearn支持向量机分类

sklearn之Model selection and evaluation学习使用

机器学习之模型评估与选择

机器学习的一些基本知识点

机器学习之——线性模型

决策树算法原理与sklearn.tree.DecisionTreeClassifier()以及决策树作图

利用解的KKTPM值度量其相对于真实最优解集的收敛程度

机器学习之集成学习与sklearn使用

连续属性离散化与sklearn.preprocessing.KBinsDiscretizer

神经网络基础以及BP算法

CART决策树以及sklearn.tree.DecisionTreeClassifier()使用

机器学习之降维（特征选择与特征提取）

逻辑回归以及sklearn.linear_model.LogisticRegression的使用

K-means聚类以及fuzzy c-means聚类的实现