大米2H-CSDN博客

你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博客：撤销：Ctrl/Command + Z重做：Ctrl/Command + Y加粗：Ctrl/Command + B斜体：Ctrl/Command + I标题：Ctrl/Command + S

2025-02-24 10:34:56 817

原创安装Jupyter Notebook方法

根据你的 Python 安装路径，以下步骤可以帮助你解决。

2024-10-28 10:12:48 612

原创集成学习-Bagging&Voting和多个模型的混淆矩阵

当涉及到集成学习时，投票法和袋装法是两种常见的技术，用于将多个基学习器（base learner）组合成一个强大的集成模型。

2023-07-07 10:33:45 731

原创基于XGBOOST模型预测货物运输耗时 - Part 1 天气预警数据获取

【代码】基于XGBOOST模型预测货物运输耗时 - Part 1 天气预警数据获取。

2023-05-19 16:04:00 836

原创 Python使用pdfplumber获取PDF所需信息

首先需要安装两个模块，第一个是pdfplumber，在命令行使用pip安装即可。第二个是fitz, 它是pymupdf中的一个模块，同样可以使用pip轻松安装。4、利用.extract_tables()方法提取当前页的文字。5、利用.extract_table()方法提取当前页的文字。3、利用.extract_text()方法提取当前页的文字。1、利用pdfplumber打开一个 PDF 文件。使用python提取PDF中文字代码思路如下。2、获取指定的页，或者遍历每一页。

2022-12-19 16:45:53 934

原创 Lesson 8.1 决策树的核心思想与建模流程

GridSearchCV评估器参数与决策树使用方法

2022-10-25 00:15:12 219

原创 Lesson 6.3 正则化与sklearn逻辑回归参数详解

在了解了sklearn的一些常用的操作之后，接下来，我们来详细探讨关于正则化的相关内容，并就sklearn中的逻辑回归的参数进行详细解释。需要注意的是，由于sklearn内部参数的一致性，有许多参数不仅是逻辑回归的参数，更是大多数分类模型的通用参数。

2022-10-24 23:28:01 184

原创 Lesson 7.1 无监督学习算法与K-Means快速聚类(确定K值)

不过，尽管如此，其实K-Means快速聚类中，还是有部分指标可以一定程度上给出聚成几类的指导意见，其中最有名的就是轮廓系数（silhouette coefficient，简称sc）。并且，非常重要的一点是，轮廓系数取值的大小一定程度上能够给K的取值提供建议，当轮廓系数比较大时，往往说明数据在特征空间中本身的分布情况就和聚类的类别数量相同。尽管轮廓系数可以在[-1, 1]区间内取值，但我们并不希望轮廓系数出现负值，此时代表组内的平均距离要大于组外平均距离的最小值，此时说明聚类算法无效。

2022-10-10 23:50:59 247

原创 Lesson 7.1 无监督学习算法与K-Means快速聚类

尽管此前例子中K-Means的迭代过程快速高效，但实际上，当面对复杂数据集时，K-Measn很有可能陷入“局部最小值陷进”或者“震荡收敛”。所谓落入局部最小值陷进，指的是尽管可能有更好的划分数据集的方法（SSE取值更小），但根据K-Means的收敛条件却无法达到，算法会在另外一种划分情况时停止迭代；前种情况非常类似于参数进行梯度下降求解过程中，如果采用BGD，并且参数在一个局部最小值点附近，则最终参数会收敛到局部最小值点类似，而后面一种情况则非常类似于学习率过大导致无法收敛、一直处于震荡状态。

2022-09-06 23:38:43 206

原创 About geocoder and distance of latlng

无

2022-07-26 17:06:06 387

原创 2022机器学习实战课内容笔记 - Lesson 5 分类模型决策边界与模型评估指标

1.准确率局限indexlabelsA-predictsB-predictspredicts_results110.80.61200.60.91300.20.40410.90.71510.90.61 如果是从准确率指标来看，两个模型在阈值为0.5的情况下，判别准确率都是80%（仅判错第二条样本），二者并无高下之分。但如果我们更加仔细的观察模型对各样本输出的概率欧安别结果，其实我们会发现模型A其实会更加“优秀”

2022-05-11 22:14:16 513

原创 2022机器学习实战课内容笔记 - Lesson 4.6 逻辑回归的手动实现

Lesson 4.6 逻辑回归的手动实现讨论完梯度下降的相关内容之后，接下来我们尝试使用梯度下降算法求解逻辑回归损失函数，并且通过一系列实验来观察逻辑回归的模型性能。# 科学计算模块import numpy as npimport pandas as pd# 绘图模块import matplotlib as mplimport matplotlib.pyplot as plt# 自定义模块from ML_basic_function import *一、逻辑回归损失函数的梯度计

2022-04-10 21:37:57 1735 2

原创 2022机器学习实战课内容笔记 - Lesson 4.5 梯度下降优化基础：数据归一化与学习率调度

1

2022-04-06 22:59:52 888

原创 2022机器学习实战课内容笔记 - Lesson 4.4 随机梯度下降与小批量梯度下降

2022-03-27 23:51:19 1079

原创 2022机器学习实战课内容笔记 - Lesson 4.3.1 梯度下降算法评价

2022-03-24 23:46:18 1540

原创 2022机器学习实战课内容笔记 - Lesson 4.3 梯度下降及手动实现方式

2022-03-20 12:11:10 781

原创 2022机器学习实战课内容笔记 - Lesson 4.2 极大似然估计、相对熵与交叉熵损失函数

2022-03-19 11:20:04 337

原创【作品集】Python-Pandas基础学习资料

2022-03-18 09:22:14 706

原创 2022机器学习实战课内容笔记 - Lesson 4.1 逻辑回归模型构建：广义线性回归、对数几率函数与逻辑斯蒂分布

一、广义线性模型逻辑回归

2022-03-13 00:17:22 1731 1

原创 2022机器学习实战课内容笔记 - Lesson 3、线性回归手动实现与模型局限

知识点补充相关性系数计算# 科学计算模块import numpy as npimport pandas as pd# 绘图模块import matplotlib as mplimport matplotlib.pyplot as plt# 自定义模块from ML_basic_function import *一、线性回归的手动实现接下来，我们尝试进行线性回归模型的手动建模实验。建模过程将遵照机器学习的一般建模流

2022-03-06 12:57:48 1591 2

原创【作品集】Python爬虫实践

第一步导入各功能模块import requestsimport pandas as pdfrom bs4 import BeautifulSoupimport numpy as npimport time本次要爬取的数据如图第二步找到元素对应位置回到“https://movie.douban.com/top250?start=0&filter=”网页👉点击F12👉点击对应位置元素1、找到了 li这个模块有我们所要的关键信息；2、li往下一层级找，找到了我们对应下一级

2022-03-01 11:05:50 208

原创【作品集】Python使用selenium加密爬虫笔记

本网站不可直接使用request去爬取response，只能使用selenium的方法进行。第一步确定当前谷歌版本号在谷歌游览器中键入 chrome://version第二步选择合适版本的谷歌exe键入网站：https://registry.npmmirror.com/binary.html?path=chromedriver/第三步将下载好的文件解压后的exe放置与爬虫代码同一个文件夹中第四步 pip install seleniumCtrl+R👉cmd 基操了，不

2022-02-28 11:44:58 1153

原创 2022机器学习实战课内容笔记 - Lesson 2、矩阵运算基础、矩阵求导与最小二乘法

import numpy as npimport pandas as pd一、NumPy矩阵运算基础在机器学习基础阶段，需要掌握的矩阵及线性代数基本理论包括：矩阵的形变及特殊矩阵的构造方法：包括矩阵的转置、对角矩阵的创建、单位矩阵的创建、上/下三角矩阵的创建等；矩阵的基本运算：包括矩阵乘法、向量内积、矩阵和向量的乘法等；矩阵的线性代数运算：包括矩阵的迹、矩阵的秩、逆矩阵的求解、伴随矩阵和广义逆矩阵等；矩阵分解运算：特征分解、奇异值分解和SVD分解等。补充知识：1.NumPy中的

2022-02-26 22:12:46 1210

原创【作品】CODM行业现状分析

2022-02-23 12:09:46 287 1

原创 2022机器学习实战课内容笔记 - Lesson 1、机器学习基本概念与建模流程

还不是很会用ipad写笔记，没买类纸膜，字迹有点拉跨，请见谅本篇内容介绍内容为以线性回归模型为例子介绍连续型变量的预测，并介绍最小二乘法求损失函数的最小值方法，以及损失函数与评估指标的区别作为本节重点学习对象，此处我们整体梳理下机器学习的一般建模流程：Step 1：提出基本模型如本节中，我们尝试利用简单线性回归去捕捉一个简单数据集中的基本数据规律，这里的y=wx+by=wx+by=wx+b就是我们所提出的基本模型。当然，在后续的学习过程中，我们还将接触诸多不同种类的机器学习模

2022-02-22 22:26:42 837

原创集成学习-蒸汽量预测(DataWhale第二期)

集成学习案例二（蒸汽量预测）背景介绍火力发电的基本原理是：燃料在燃烧时加热水生成蒸汽，蒸汽压力推动汽轮机旋转，然后汽轮机带动发电机旋转，产生电能。在这一系列的能量转化中，影响发电效率的核心是锅炉的燃烧效率，即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多，包括锅炉的可调参数，如燃烧给量，一二次风，引风，返料风，给水水量；以及锅炉的工况，比如锅炉床温、床压，炉膛温度、压力，过热器的温度等。我们如何使用以上的信息，根据锅炉的工况，预测产生的蒸汽量，来为我国的工业届的产量预测贡献自己的一份力量

2021-07-31 17:25:23 211

原创集成学习-Stacking与Blending与泰坦尼克号特征工程(DataWhale第二期)

1. 导言在前几个章节中，我们学习了关于回归和分类的算法，同时也讨论了如何将这些方法集成为强大的算法的集成学习方式，分别是Bagging和Boosting。本章我们继续讨论集成学习方法的最后一个成员–Stacking，这个集成方法在比赛中被称为“懒人”算法，因为它不需要花费过多时间的调参就可以得到一个效果不错的算法，同时，这种算法也比前两种算法容易理解的多，因为这种集成学习的方式不需要理解太多的理论，只需要在实际中加以运用即可。 stacking严格来说并不是一种算法，而是精美而又复杂的，对模型集成的一种

2021-07-28 22:10:42 740

原创集成学习-Boosting与Adaboost与前向分布(DataWhale第二期)

2. Boosting方法的基本思路在正式介绍Boosting思想之前，我想先介绍两个例子：第一个例子：不知道大家有没有做过错题本，我们将每次测验的错的题目记录在错题本上，不停的翻阅，直到我们完全掌握(也就是能够在考试中能够举一反三)。第二个例子：对于一个复杂任务来说，将多个专家的判断进行适当的综合所作出的判断，要比其中任何一个专家单独判断要好。实际上这是一种“三个臭皮匠顶个诸葛亮的道理”。这两个例子都说明Boosting的道理，也就是不错地重复学习达到最终的要求。Boosting的提出与发展离不

2021-07-26 21:31:47 133

原创集成学习-Bagging与随机森林(DataWhale第二期)

1、bootstraps是一种将线性回归参数 B^，通过多次求解后再进行求方差得出的，过程称为自助采样。2、Bagging是由 Bootstraps 演化而来的3、Bagging的核心在于自助采样(bootstrap)这一概念，即有放回的从数据集中进行采样，也就是说，同样的一个样本可能被多次进行采样。一个自助采样的小例子是我们希望估计全国所有人口年龄的平均值，那么我们可以在全国所有人口中随机抽取不同的集合（这些集合可能存在交集），计算每个集合的平均值，然后将所有平均值的均值作为估计值。4、Bagg..

2021-07-22 22:54:31 178 1

空空如也

空空如也