机器学习
文章平均质量分 54
以实战(实际的机器学习小案例)为基础展开ML的理论与实践。
ShenLiang2025
『沈亮』_聚焦数据科学领域的技术研究与实践,擅长数据库开发、ETL、数据仓库、大数据、数据分析、机器学习、基础数学等方向。
展开
-
OCR图片矫正、表格检测及裁剪综合实践
OCR表格图片倾斜矫正、图片表格检测(返回左顶点、右底点坐标)、裁剪并保存表格图片原创 2024-08-04 13:50:20 · 468 阅读 · 0 评论 -
Linux Win 10 Windows CPU上安装Ollama 0.2.7 部署大模型qwen2 7b/15b llama3 配置启动 LangChain-ChatChat 0.2.7进行对话
Win 10 Window安装Ollama部署qwen2 7b LangChain-ChatChat环境说明Win 10。原创 2024-07-13 21:10:59 · 1215 阅读 · 0 评论 -
Python 模型持久化
Python 模型持久化1 声明本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理。2 模型持久化简介当我们需要将我们的模型与其它的应用或者软件集成时,我们一般需要将模型持久化。持久化即将训练后的模型导出成文件.在sklearn 里通过joblib的dump方法进行导出,load方法进行加载,实例化分类对象后预测。3 模型持久化代码示例#加载相关包和数...原创 2021-03-25 21:21:43 · 501 阅读 · 2 评论 -
Python AdaBoost提升算法
Python AdaBoost提升算法1 声明本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理。2 AdaBoost提升简介随机森林是通过一堆随机决策树来预测目标变量,还有一种方法是通过提升的方法。该方法里常用的是AdaBoost,这里通过对一系列弱的模型(浅些的决策树)就行迭代,每次迭代时对错分的样本给予更高关注以纠正模型。它的执行过程见下:1、给每个样本初始的权重 ,这里n是样本的总...原创 2021-03-22 20:14:46 · 270 阅读 · 1 评论 -
Python 随机森林分类
Python 随机森林分类1 声明本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理。2 决策树分类简介相关概念见下:决策树的最大问题是树在训练集生成的过于茂密,导致过拟合(即在训练集上表现卓越但在测试集上效果很差)。这时随机森林就应运而生了。在随机森林里会有很多决策树,而每颗决策树只接收自举样本且每个节点仅围绕...原创 2021-03-15 20:44:18 · 2784 阅读 · 1 评论 -
Python 管道与特征联合
Python 管道与特征联合1 声明本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理。2管道与特征联合简介Pipeline可以用于把多个估算器链接组成成一个新的估算器,这样可以组成一个庞大的流水线。Pipeline的特点是: 一次调用fit和predict就可以适配评估器序列。 可对Pipeline中所有估计器的参数统一进行网格搜索。FeatureUnion合并了...原创 2021-03-10 21:06:40 · 211 阅读 · 0 评论 -
Python 多种算法模型对比
Python 多种算法模型对比1 声明本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理。2 KNN简介可以对同一份训练数据集应用多个算法模型,通过交叉验证的方法计算出准确率进行比较以选择效果较好的算法。应用交叉验证的好处是当用新的数据检验模型的表现时,可以在一定程度上减小过拟合。注:1 这里的数据集来自pima-indians-diabetes(最初来自国家...原创 2021-03-09 14:46:13 · 2844 阅读 · 1 评论 -
Python支持向量机
Python支持向量机1 声明本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理。2 支持向量机简介相关概念见下:支持向量机通过寻找训练数据里最大化类之间距离的超平面来来对数据进行分类。间隔是对是对训练样本里距离分离超平面(决策边界)最近时的距离,这些最近的训练样本叫做支持向量,支持向量机由此得名。由上图不难发现这里的间隔即为而 这里对最大间隔的求...原创 2021-03-03 22:12:36 · 1172 阅读 · 4 评论 -
Python 决策树
Python 决策树1 声明本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理。2 决策树简介相关概念见下:决策树是一个无参数的有监督的分类和回归算法。该算法通过IF-THEN-ELSE决策规则(比如:如果绩效考核是A则发奖金1000K,是B则发500)的方式来从数据中学习模型。这种决策的结构就像一个倒置树(第一个决策规则在最顶端,其它的节点随之展开)。在决策树里...原创 2021-03-01 18:03:33 · 3036 阅读 · 1 评论 -
Python 逻辑回归
Python 逻辑斯蒂回归1 声明本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理。2 逻辑斯蒂回归简介相关概念见下:某个事件发生的概率定义为P,P的范围是[0,1]Odds = 一个事件发生的概率/不发生的概率 =针对P不等于0和1的情况,我们会发现P趋于“极小”时(即无限接近0)时odds仍无限趋向于0;P趋于“极大”时(即无限接近1)时odds趋向...原创 2021-02-21 20:49:27 · 772 阅读 · 0 评论 -
Python 线性回归
Python 线性回归1 声明本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理。2 线性回归简介相关概念见下:如果想通过一个模型找到目标变量和特征的线性关系就用到线性回归(在房价的预测的场景中假设拿到地段、面积、学区、建筑时间等特征后,通过训练线性回归模型,进而可对的新数据进行预测)。线性回归假设特征与目标变量存在线性关系,换言之这种影响(系数或参数,神经网络里又叫权重)是常量。...原创 2021-02-17 13:21:18 · 1348 阅读 · 1 评论 -
Python KNN K近邻分类
Python KNN K近邻分类1 声明本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理。2 KNN简介相关概念见下:对于给定的观测来预测目标分类时KNN算法执行过程是:首先先基于计算距离度量方法(如欧式距离)的识别出k个最近的观测(也叫做的邻居)然后这K个观测基于自己的分类选举出最终预测的分类。观测是第j类的概率见如下公式:其中v是Xu 附近内的k...原创 2021-02-13 19:03:21 · 733 阅读 · 1 评论 -
Python Kmeans K均值分类
Python Kmeans K均值分类1 声明本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理。2 Kmeans简介相关概念见下:Kmeans是无监督分类算法,即不需要target即y参与的分类方法。该算法的核心思想是将数据按照特征分成k(超参数)组,每组包含大致相同的方差。执行过程见下:1 随机找k个位置作为中心2 针对每个样本a) 计算每个样本与中心点的距离。...原创 2021-02-11 18:34:57 · 1364 阅读 · 1 评论 -
Python朴素贝叶斯
Python贝叶斯1 声明本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理。2 贝叶斯简介相关概念见下:条件概率P(B|A) = P(AB)/P(A)即B在A发生的时的概率等于A、B同时发生的概率除以A发生的概率全概率P(A)=P(A|B1)P(B1)+ P(A|B2)P(B2)+…… P(A|Bn)Bn这里B1,B2……Bn是对A的...原创 2021-02-07 15:50:18 · 296 阅读 · 1 评论 -
Python回归模型评估
Python回归模型评估1 声明本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理。2 回归模型评估简介对给给定的回归模型进行质量评估,常见概念见下:残差,即实际值与预测值差的均值。残差平方和,即实际值与预测值差的平方的均值。注:这里的n是样本的数量,其中 是预测值, 是实际值。R方,可反应目标向量中模型所解释的中的方差量。...原创 2021-02-04 18:12:34 · 1936 阅读 · 1 评论 -
Python分类模型评估
Python分类模型评估指标1 声明本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理。2 分类模型评估指标简介对给给定的分类模型进行质量评估,常见概念见下:其中TP是true positive(真正的)、TN是true negative (真负的)、FP是false positive,(假负的)、positive(正的)、negative(负的)个数。混淆...原创 2021-02-01 17:27:25 · 1909 阅读 · 1 评论 -
Python 交叉验证模型评估
Python 交叉验证模型评估1 声明本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理。2 交叉验证模型评估简介交叉验证(Cross Validation)是机器学习里模型评估的常见方法,它用于检查模型的泛化能力。计算过程是将数据分为n 组,每组数据都要作为一次验证集进行一次验证,而其余的 n-1 组数据作为训练集。这样一共要循环 n 次,得到 n 个模型。通过对这...原创 2021-01-28 17:32:25 · 1305 阅读 · 0 评论 -
Python 卡方检验演算
Python 卡方演算1 声明本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理。2 卡方简介卡方统计检验用于检测两个分类向量的独立性,也就是说该统计量是一个用于统计分类特征的每个类别中观测到的数量与我们所期望(特征与目标向量独立或者无关时)之间的差异。其中O代表观测或者样本的值,i代表第i个分类,E代表期望值。3 卡方代码示例fr...原创 2021-01-27 18:43:35 · 524 阅读 · 1 评论 -
极度随机树ExtraTreesClassifier
Extremely Randomized Trees Classifier(极度随机树) 是一种集成学习技术,它将森林中收集的多个去相关决策树的结果聚集起来输出分类结果。极度随机树的每棵决策树都是由原始训练样本构建的。在每个测试节点上,每棵树都有一个随机样本,样本中有k个特征,每个决策树都必须从这些特征集中选择最佳特征,然后根据一些数学指标(一般是基尼指数)来拆分数据。这种随机的特征样本导致多个不相关的决策树的产生。原创 2021-01-21 15:57:00 · 18538 阅读 · 5 评论 -
RFE递归式特征消除
RFE递归式特征消除1 声明本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理。2 RFE递归式特征消除简介RFE(Recursive Feature Elimination)是特征选择的算法.它的工作原理是从训练数据集中的所有特征开始搜索特征子集,并成功地删除特征,直到保留所需的数量。这是通过对给定的算法模型进行拟合,按重要性对特征进行排序,丢弃最不重要的特征,并重新拟合模型来实...原创 2021-01-18 17:39:37 · 7104 阅读 · 3 评论 -
PCA 主成分分析 用Excel一步步演算过程详解
PCA Excel演算1 声明本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理。2 PCA简介主成分分析(Principal Components Analysis),简称PCA,是一种数据降维技术,用于数据预处理。在PCA中,数据从原来的坐标系转化到新的坐标系中。通常第一个新坐标轴选择的是原始数据方差...原创 2021-01-15 22:28:50 · 12365 阅读 · 0 评论 -
Scikit-learn数据预处理分类变量编码之字段特征编码
Scikit-learn数据预处理分类变量编码之字段特征编码1 声明本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理。2 字段特征编码简介字典特征编码主要是对字典类型的数据进行编码,取key为列,value则对应列的值。比如NLP里的词频,key为单词、values为单词出现次数。注:这里主要针对原始分类变量是字符串的情况。from sklearn.feature_extraction import ...原创 2021-01-13 18:00:53 · 374 阅读 · 0 评论 -
Scikit-learn数据预处理分类变量编码之等级变量编码
Scikit-learn数据预处理分类变量编码之等级变量编码1 声明本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理。2 等级分类变量编码简介有序分类变量,又等级分类变量,比如学历的专科、本科、研究生等,即变量间的差值有意义。这类编码一般通过map进行映射。注:这里主要针对原始分类变量是字符串的情况。import pandas as pddataframe = pd.DataFra...原创 2021-01-13 17:57:25 · 979 阅读 · 0 评论 -
Scikit-learn数据预处理分类变量编码之多标签二值化
Scikit-learn数据预处理分类变量编码之多标签二值化1 声明本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理。2 名义变量多标签二值化编码简介名义变量(特征)是(nominal features)分类变量的一种,变量间没用次序和等级之分。比如性别的男、女;民族的汉族、回族、傣族等。多标签二值编码(MultiLabelBinarizer)可以将该类型的变量(多标签)以二值的形式表示。...原创 2021-01-13 17:55:09 · 1099 阅读 · 0 评论 -
Scikit-learn数据预处理分类变量编码之标签二值化
Scikit-learn数据预处理分类变量编码之标签二值化1 声明本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理。2 名义变量编码简介名义变量(特征)是(nominal features)分类变量的一种,变量间没用次序和等级之分。比如性别的男、女;民族的汉族、回族、傣族等。标签二值编码(LabelBinarizer)可以将该类型的变量以二值的形式表示。注:这里主要针对原始分类变量是字符串的情况。...原创 2021-01-13 17:51:13 · 1256 阅读 · 0 评论 -
Scikit-learn数据预处理之范数缩放NormalizerScaler
Scikit-learn 数据预处理之行范数缩放NormalizerScaler1 声明本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理。2 NormalizerScaler简介NormalizerScaler是对样本的行数进行缩放,主要有两种形式:norm="l2",按行求出每个特征的欧氏距离等于1。norm="l1",按行求出每个特征的绝...原创 2021-01-12 14:46:13 · 787 阅读 · 0 评论 -
Scikit-learn 数据预处理之最大绝对值MaxAbsScaler
Scikit-learn 数据预处理之最大绝对值MaxAbsScaler1 声明本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理。2 MaxAbsScaler简介。MaxAbsScaler根据最大值的绝对值进行标准化。假设某列原数据为x,则新数据为x/|max|。应用场景:应用于稀疏矩阵。3 MaxAbsScalerimport pandas a...原创 2021-01-12 14:34:11 · 1571 阅读 · 0 评论 -
Scikit-learn 数据预处理之鲁棒缩放RobustScaler
Scikit-learn 数据预处理之健壮缩放RobustScaler1 声明本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理。2 RobustScaler简介RobustScaler通过中位数和四分位距来缩放。使用于对异常值比较敏感的情况。应用场景: 离群值较多的数据时。3 RobustScalerimport pandas as pdfrom skle...原创 2021-01-12 14:31:37 · 3132 阅读 · 0 评论 -
Scikit-learn 数据预处理之标准化StandardScaler
Scikit-learn 数据预处理之标准化1 声明本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理。2 Scikit-learn Scaler简介StandardScaler当数据(x)按均值(μ)中心化后,再按标准差(σ)缩放,数据就会服从为均值为0,方差为1的标准正态分布,该过程叫数据标准化(Standardization,又称Z-score normali...原创 2021-01-12 14:25:51 · 1770 阅读 · 0 评论 -
Scikit-learn 数据预处理之归一化MinMaxScaler
Scikit-learn 数据预处理之归一化1 声明本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理。2 Scikit-learn Scaler简介MinMaxScaler当数据(x)按照最小值中心化后,再按极差(最大值 - 最小值)缩放,数据移动了最小值个单位,并且会被收敛到[0,1]之间,该过程叫数据归一化(Normalization,又称Min-Max Sc...原创 2021-01-12 14:21:50 · 2905 阅读 · 0 评论 -
最小二乘法(多元)推导
最小二乘法(多元)推导1 声明本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理。2 最小二乘法简介最小二乘法是一种优化的方法,它主要是通过最小化误差的平方和来做函数拟合的方法。3 最小二乘法多元推导有如下回归模型其中b0,b1,…bp,μ2 x1,x2,…xp 都是与无关的未知参数。这里设是一个样本。这里令残差平方和的表达式为...原创 2021-01-07 18:30:55 · 9530 阅读 · 1 评论 -
最小二乘法(一元)推导
最小二乘法一元推导1 声明本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理。2 最小二乘法简介最小二乘法是一种优化的方法,它主要是通过最小化误差的平方合来做函数拟合的方法。3 最小二乘法一元推导有如下回归模型其中a,b,μ2 都是不依赖于x的未知参数,记ε=Y-(a+bx)。这里令残差平方和的表达式为:则取Q分别对a,b取偏导数,并...原创 2021-01-07 18:27:52 · 3370 阅读 · 0 评论 -
斯坦福python中文分词stanza
斯坦福python中文分词stanza1 下载Stanford CoreNLP相关文件下载完整的组件https://stanfordnlp.github.io/CoreNLP/index.html下载中文模型文件解压stanford-corenlp-full-2018-02-...原创 2019-12-12 15:04:49 · 3084 阅读 · 3 评论 -
词云_jieba分词
词云_jieba分词本篇是对词云的代码展示,详细的见如下描述:# -*- coding: utf-8 -*-from wordcloud import WordCloudimport matplotlib.pyplot as pltimport jiebaimport recom...原创 2019-12-09 16:37:15 · 505 阅读 · 0 评论 -
百度语音识别合成案例
百度语音识别合成案例本文截取之前项目里涉及到的语音识别和合成部分进行代码展示。其中读取语音部分需要优化,这里是demo读取的是存在本地的音频文件,建议走音频流。1 控制器示例代码package com.cn.artifact.admin.controller;import com.shenl.entry.s...原创 2019-11-28 11:39:17 · 481 阅读 · 0 评论 -
RASA NLU Chi安装
1 RASA NLU简介... 22 准备... 22.1 环境说明... 23 安装... 43.1 下载软件... 43.2 安装... 43.4 安装问题... 54 使用... 65 参考... 8 RASA NLU Chi安装1 RASA NLU简...原创 2019-11-28 11:05:50 · 1047 阅读 · 0 评论 -
假设检验代码篇
假设检验代码篇假设检验常见的有单样本T-检验、双样本T-检验、成对T-检验、方差分析等。详细见如下代码部分。from scipy import statsimport pandas as pd# 1 One-Sam...原创 2019-11-27 15:37:28 · 1047 阅读 · 0 评论 -
python 等深分箱 等宽分箱结合二分箱的数据分析
python 等深分箱 等宽分箱结合二分箱的数据分析Python里可以通过pcut(等深分箱 每箱的样本量基本一致)和cut(等宽分箱 样本量之间有相同的宽度)对样本进行分箱。详见如下代码部分。本文的数据来自网络,部分代码也有所参照,这里...原创 2019-11-25 17:21:54 · 8162 阅读 · 1 评论 -
决策树结合网格搜索交叉验证的例子
决策树结合网格搜索交叉验证如下是常见的模型评估的指标定义及决策树结合网格搜索交叉验证的例子。详见下文:混淆矩阵:准确率:精准率(预测为正样本真实也是正例的比值,又称为查准率):召回率(真实为正例的样本中预测为正例的比值,又称为查全率):F1 Socre (反映模型的稳健型...原创 2019-11-12 11:09:16 · 2468 阅读 · 0 评论 -
决策树划分
决策树划分这里用的是数据集鸢尾花,其中萼片长sepal length (X1) 、萼片宽sepal width (X2).总共150个数据集.第一个分割是h0分左右两个区域,然后对左边的部分再按照h2划分;对右边的部分再按照h3划分。同理对h2下面的区域按照h4划分得到R3和R4,h2上面的...原创 2019-10-28 22:08:06 · 412 阅读 · 0 评论