- 博客(40)
- 收藏
- 关注
原创 集成学习-Bagging&Voting和多个模型的混淆矩阵
当涉及到集成学习时,投票法和袋装法是两种常见的技术,用于将多个基学习器(base learner)组合成一个强大的集成模型。
2023-07-07 10:33:45 591
原创 基于XGBOOST模型预测货物运输耗时 - Part 3 XGBOOST与LightGBM择优选择模型
【代码】基于XGBOOST模型预测货物运输耗时 - Part 3 XGBOOST与LightGBM择优选择模型。
2023-05-19 16:36:23 242
原创 基于XGBOOST模型预测货物运输耗时 - Part 2 通过方差分析了解文本型变量与数值型目标变量的关系
具体计算时,需要知道每个geo对应的样本数量。假设分别为n1、n2、n3、n4,则自由度为 (n1 - 1) + (n2 - 1) + (n3 - 1) + (n4 - 1)。在独立样本T检验中,自由度的计算方法与样本数量有关。自由度 = (样本1的观测数量 - 1) + (样本2的观测数量 - 1) + …+ (样本4的观测数量 - 1)
2023-05-19 16:30:44 696 1
原创 基于XGBOOST模型预测货物运输耗时 - Part 1 天气预警数据获取
【代码】基于XGBOOST模型预测货物运输耗时 - Part 1 天气预警数据获取。
2023-05-19 16:04:00 629
原创 Python使用pdfplumber获取PDF所需信息
首先需要安装两个模块,第一个是pdfplumber,在命令行使用pip安装即可。第二个是fitz, 它是pymupdf中的一个模块,同样可以使用pip轻松安装。4、利用.extract_tables()方法提取当前页的文字。5、利用.extract_table()方法提取当前页的文字。3、利用.extract_text()方法提取当前页的文字。1、利用pdfplumber打开一个 PDF 文件。使用python提取PDF中文字代码思路如下。2、获取指定的页,或者遍历每一页。
2022-12-19 16:45:53 812
原创 Lesson 6.3 正则化与sklearn逻辑回归参数详解
在了解了sklearn的一些常用的操作之后,接下来,我们来详细探讨关于正则化的相关内容,并就sklearn中的逻辑回归的参数进行详细解释。需要注意的是,由于sklearn内部参数的一致性,有许多参数不仅是逻辑回归的参数,更是大多数分类模型的通用参数。
2022-10-24 23:28:01 124
原创 Lesson 7.1 无监督学习算法与K-Means快速聚类(确定K值)
不过,尽管如此,其实K-Means快速聚类中,还是有部分指标可以一定程度上给出聚成几类的指导意见,其中最有名的就是轮廓系数(silhouette coefficient,简称sc)。并且,非常重要的一点是,轮廓系数取值的大小一定程度上能够给K的取值提供建议,当轮廓系数比较大时,往往说明数据在特征空间中本身的分布情况就和聚类的类别数量相同。尽管轮廓系数可以在[-1, 1]区间内取值,但我们并不希望轮廓系数出现负值,此时代表组内的平均距离要大于组外平均距离的最小值,此时说明聚类算法无效。
2022-10-10 23:50:59 197
原创 Lesson 7.1 无监督学习算法与K-Means快速聚类
尽管此前例子中K-Means的迭代过程快速高效,但实际上,当面对复杂数据集时,K-Measn很有可能陷入“局部最小值陷进”或者“震荡收敛”。所谓落入局部最小值陷进,指的是尽管可能有更好的划分数据集的方法(SSE取值更小),但根据K-Means的收敛条件却无法达到,算法会在另外一种划分情况时停止迭代;前种情况非常类似于参数进行梯度下降求解过程中,如果采用BGD,并且参数在一个局部最小值点附近,则最终参数会收敛到局部最小值点类似,而后面一种情况则非常类似于学习率过大导致无法收敛、一直处于震荡状态。
2022-09-06 23:38:43 132
原创 2022机器学习实战课内容笔记 - Lesson 5 分类模型决策边界与模型评估指标
1.准确率局限indexlabelsA-predictsB-predictspredicts_results110.80.61200.60.91300.20.40410.90.71510.90.61 如果是从准确率指标来看,两个模型在阈值为0.5的情况下,判别准确率都是80%(仅判错第二条样本),二者并无高下之分。但如果我们更加仔细的观察模型对各样本输出的概率欧安别结果,其实我们会发现模型A其实会更加“优秀”
2022-05-11 22:14:16 421
原创 2022机器学习实战课内容笔记 - Lesson 4.6 逻辑回归的手动实现
Lesson 4.6 逻辑回归的手动实现 讨论完梯度下降的相关内容之后,接下来我们尝试使用梯度下降算法求解逻辑回归损失函数,并且通过一系列实验来观察逻辑回归的模型性能。# 科学计算模块import numpy as npimport pandas as pd# 绘图模块import matplotlib as mplimport matplotlib.pyplot as plt# 自定义模块from ML_basic_function import *一、逻辑回归损失函数的梯度计
2022-04-10 21:37:57 1642 2
原创 2022机器学习实战课内容笔记 - Lesson 4.1 逻辑回归模型构建:广义线性回归、对数几率函数与逻辑斯蒂分布
一、广义线性模型逻辑回归
2022-03-13 00:17:22 1646 1
原创 2022机器学习实战课内容笔记 - Lesson 3、 线性回归手动实现与模型局限
知识点补充 相关性系数计算# 科学计算模块import numpy as npimport pandas as pd# 绘图模块import matplotlib as mplimport matplotlib.pyplot as plt# 自定义模块from ML_basic_function import *一、线性回归的手动实现 接下来,我们尝试进行线性回归模型的手动建模实验。建模过程将遵照机器学习的一般建模流
2022-03-06 12:57:48 1456 1
原创 【作品集】Python爬虫实践
第一步 导入各功能模块import requestsimport pandas as pdfrom bs4 import BeautifulSoupimport numpy as npimport time本次要爬取的数据如图第二步 找到元素对应位置回到“https://movie.douban.com/top250?start=0&filter=”网页👉点击F12👉点击对应位置元素1、找到了 li这个模块有我们所要的关键信息;2、li往下一层级找,找到了我们对应下一级
2022-03-01 11:05:50 157
原创 【作品集】Python使用selenium加密爬虫笔记
本网站不可直接使用request去爬取response,只能使用selenium的方法进行。第一步 确定当前谷歌版本号在谷歌游览器中键入 chrome://version第二步 选择合适版本的谷歌exe键入网站:https://registry.npmmirror.com/binary.html?path=chromedriver/第三步 将下载好的文件解压后的exe放置与爬虫代码同一个文件夹中第四步 pip install seleniumCtrl+R👉cmd 基操了,不
2022-02-28 11:44:58 967
原创 2022机器学习实战课内容笔记 - Lesson 2、矩阵运算基础、矩阵求导与最小二乘法
import numpy as npimport pandas as pd一、NumPy矩阵运算基础 在机器学习基础阶段,需要掌握的矩阵及线性代数基本理论包括:矩阵的形变及特殊矩阵的构造方法:包括矩阵的转置、对角矩阵的创建、单位矩阵的创建、上/下三角矩阵的创建等;矩阵的基本运算:包括矩阵乘法、向量内积、矩阵和向量的乘法等;矩阵的线性代数运算:包括矩阵的迹、矩阵的秩、逆矩阵的求解、伴随矩阵和广义逆矩阵等;矩阵分解运算:特征分解、奇异值分解和SVD分解等。补充知识:1.NumPy中的
2022-02-26 22:12:46 1132
原创 2022机器学习实战课内容笔记 - Lesson 1、机器学习基本概念与建模流程
还不是很会用ipad写笔记,没买类纸膜,字迹有点拉跨,请见谅本篇内容介绍内容为 以线性回归模型为例子介绍连续型变量的预测,并介绍最小二乘法求损失函数的最小值方法,以及损失函数与评估指标的区别 作为本节重点学习对象,此处我们整体梳理下机器学习的一般建模流程:Step 1:提出基本模型 如本节中,我们尝试利用简单线性回归去捕捉一个简单数据集中的基本数据规律,这里的y=wx+by=wx+by=wx+b就是我们所提出的基本模型。当然,在后续的学习过程中,我们还将接触诸多不同种类的机器学习模
2022-02-22 22:26:42 745
原创 集成学习-蒸汽量预测(DataWhale第二期)
集成学习案例二 (蒸汽量预测)背景介绍火力发电的基本原理是:燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多,包括锅炉的可调参数,如燃烧给量,一二次风,引风,返料风,给水水量;以及锅炉的工况,比如锅炉床温、床压,炉膛温度、压力,过热器的温度等。我们如何使用以上的信息,根据锅炉的工况,预测产生的蒸汽量,来为我国的工业届的产量预测贡献自己的一份力量
2021-07-31 17:25:23 132
原创 集成学习-Stacking与Blending与泰坦尼克号特征工程(DataWhale第二期)
1. 导言在前几个章节中,我们学习了关于回归和分类的算法,同时也讨论了如何将这些方法集成为强大的算法的集成学习方式,分别是Bagging和Boosting。本章我们继续讨论集成学习方法的最后一个成员–Stacking,这个集成方法在比赛中被称为“懒人”算法,因为它不需要花费过多时间的调参就可以得到一个效果不错的算法,同时,这种算法也比前两种算法容易理解的多,因为这种集成学习的方式不需要理解太多的理论,只需要在实际中加以运用即可。 stacking严格来说并不是一种算法,而是精美而又复杂的,对模型集成的一种
2021-07-28 22:10:42 597
原创 集成学习-Boosting与Adaboost与前向分布(DataWhale第二期)
2. Boosting方法的基本思路在正式介绍Boosting思想之前,我想先介绍两个例子:第一个例子:不知道大家有没有做过错题本,我们将每次测验的错的题目记录在错题本上,不停的翻阅,直到我们完全掌握(也就是能够在考试中能够举一反三)。第二个例子:对于一个复杂任务来说,将多个专家的判断进行适当的综合所作出的判断,要比其中任何一个专家单独判断要好。实际上这是一种“三个臭皮匠顶个诸葛亮的道理”。这两个例子都说明Boosting的道理,也就是不错地重复学习达到最终的要求。Boosting的提出与发展离不
2021-07-26 21:31:47 93
原创 集成学习-Bagging与随机森林(DataWhale第二期)
1、bootstraps是一种将线性回归参数 B^,通过多次求解后再进行求方差得出的,过程称为自助采样。2、Bagging是由 Bootstraps 演化而来的3、Bagging的核心在于自助采样(bootstrap)这一概念,即有放回的从数据集中进行采样,也就是说,同样的一个样本可能被多次进行采样。一个自助采样的小例子是我们希望估计全国所有人口年龄的平均值,那么我们可以在全国所有人口中随机抽取不同的集合(这些集合可能存在交集),计算每个集合的平均值,然后将所有平均值的均值作为估计值。4、Bagg..
2021-07-22 22:54:31 133 1
原创 集成学习-逻辑回归原理/线性判别/决策树(DataWhale第二期)
1、逻辑回归逻辑推导import pandas as pdfrom sklearn import datasetsiris = datasets.load_iris()X = iris.datay = iris.targetfeature = iris.feature_namesdata = pd.DataFrame(X,columns=feature)data['target'] = ydata.head() sepal length (
2021-07-20 23:17:56 511 1
原创 集成学习-knn/极大似然估计/方差与偏差/岭回归和Lasso回归原理(DataWhale第二期)
import numpy as np引用B站:https://www.bilibili.com/video/BV1Uh411m74w?from=search&seid=4466513966431555719学自:【B站博主:萌弟AI】1、简单理解KNNx = np.array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])y = np.array([0,0,1,1])x,y(array([[1. , 1.1], [1. , 1. ],
2021-07-17 22:40:48 797 2
原创 集成学习-决策与回归基本原理推导(DataWhale第二期)
1.导论【转载自B站:萌弟AI数学基础基于Python】什么是机器学习?机器学习的一个重要的目标就是利用数学模型来理解数据,发现数据中的规律,用作数据的分析和预测。数据通常由一组向量组成,这组向量中的每个向量都是一个样本,我们用xix_ixi来表示一个样本,其中i=1,2,3,...,Ni=1,2,3,...,Ni=1,2,3,...,N,共N个样本,每个样本xi=(xi1,xi2,...,xip,yi)x_i=(x_{i1},x_{i2},...,x_{ip},y_i)xi=(xi1,xi2,
2021-07-16 00:47:29 255
原创 集成学习-高等线性代数-基于python(DataWhale第二期)
线性代数【转载自B站:萌弟AI数学基础基于Python】第一章:向量空间举例:正如我们所生活的三维空间,它就是一个向量空间。定义:令F是一个数域,对于一个集合V,对于任意的a,b∈F,α,β,γ∈V,我们称V为一个向量空间,则它必须满足以下条件:(1)α+β=β+α;(2)(α+β)+γ=α+(β+γ);(3)∃0∈V,它具有以下性质:∀α∈V,都有0+α=α;(4)对于V中的每一个向量α,在V中存在一个向量α′,使得α+α′=0。这样的α′叫做α的负向量;(5)a(α+β)=aα+aβ:
2021-07-14 00:35:29 150
原创 集成学习-高等数学基础-基于python(DataWhale第二期)
1.函数【转载自B站:萌弟AI数学基础基于Python】1.1 函数的定义定义:设数集 D⊂R, 则称映射 f:D→R 为定义在 D 上的函数,通常简记为 D \subset {\mathbf{R}}, \text { 则称映射 } f: D \rightarrow \mathbf{R} \text { 为定义在 } D \text { 上的函数,通常简记为 }D⊂R, 则称映射 f:D→R 为定义在
2021-07-13 22:43:37 486
原创 Task 05 Python 爬虫入门
1.Requests简介Requests是一款目前非常流行的http请求库,使用python编写,能非常方便的对网页Requests进行爬取,也是爬虫最常用的发起请求第三方库。安装方法pip install requests或者conda安装conda install requests1、re.status_code 响应的HTTP状态码2、re.text 响应内容的字符串形式3、re.content 响应内容的二进制形式4、re.encoding 响应内容的编码1.1访问百度试一试对
2021-06-26 21:46:13 1202
原创 Task 04 Python 操作 PDF
1. 相关介绍Python 操作 PDF 会用到两个库,分别是:PyPDF2 和 pdfplumber其中 PyPDF2 可以更好的读取、写入、分割、合并PDF文件,而 pdfplumber 可以更好的读取 PDF 文件中内容和提取 PDF 中的表格对应的官网分别是PyPDF2:https://pythonhosted.org/PyPDF2/pdfplumber:https://github.com/jsvine/pdfplumber由于这两个库都不是 Python 的标准库,所以在使用之前都需
2021-06-23 23:39:15 167
原创 Task 03 python自动化之word操作
1、课前准备python 处理 Word 需要用到 python-docx 库,终端执行如下安装命令:pip3 install python-docx或conda install python-doc2、初步认识docx新建空白word并插入文字# 导入库from docx import Document# 新建空白文档doc_1 = Document()doc_1.add_heading('新建空白文档标题,级别为0',level = 0)doc_1.add_heading('
2021-06-20 21:12:40 510
原创 Task 02 关于openpyxl库操作excel表格
1、读取对应的Excel表格1.1 打开已经存在的Excel表格#####’’'感觉没有pandas + xlwings好用,调色部分可以借鉴‘’‘####from openpyxl import load_workbookexl = load_workbook(filename = 'test.xlsx')print(exl.sheetnames)['work']1.1.1 根据名称获取表格from openpyxl import load_workbookexl_1 = loa
2021-06-18 22:31:39 203
原创 1 Python 文件自动化处理
import osos.path.join('Datawhale','docu')'Datawhale\\docu'一、读写文件1、Return 当前路径os.getcwd()'C:\\Users\\jxchen\\Desktop\\python自动化处理'2、改变当前路径os.chdir(r"D:\usually_tools")os.getcwd() # 再次查看当前路径'D:\\usually_tools'3、路径转化之 相对路径/绝对路径"""`os.path
2021-06-16 21:25:06 291
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人