Waitind_-CSDN博客

原创数分一般步骤——数据清洗/预处理

【代码】数分一般步骤——数据清洗/预处理。

2024-10-27 21:37:45 242

实例化归一化处理器mms = MinMaxScaler()#这行代码创建了一个MinMaxScaler的实例，并将其存储在变量mms中。# 删除不需要的列# 使用归一化处理特定的列#fit_transform方法首先计算这些列的缩放比例，然后应用这些比例来缩放数据。# 显示处理后的前几行数据以检查df1.head()classifier.fit(x_train, y_train)#使用训练特征和标签来训练分类器。

2024-08-17 21:20:54 890 5

原创 Python爬虫-xpath

2.调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获。-1.实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中。- 如何实例化一个etree对象:from lxml import etree。-2.可以将从互联网上获取的源码数据加载到该对象中。xpath解析:最常用且最便捷高效的一种解析方式。- xpath('xpath表达式’)

2024-08-12 15:39:53 183

原创数据分析常规步骤（太空泰坦尼克号）

grid = {请挨个自学吧。。。。。。。

2024-08-12 15:39:42 1189

原创 Python爬虫-爬取三国演义文本数据-bs4

1.将本地的html文档中的数据加载到该对象中。- 2.将互联网上获取的页面源码加载到该对象中。-2.通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取。- 1.实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中。先使用通用爬虫爬取页面所有数据，再解析标题内容。-2.提取标签、标签属性中存储的数据值。爬取三国演义文本数据。

2024-07-12 16:36:32 615

原创 Python爬虫-正则分页数据解析（先爬取整张页面再提取局部数据）-爬取糗图百科图片

【代码】Python爬虫-数据解析（先爬取整张页面再提取局部数据）

2024-07-12 09:06:22 452

原创 Python爬虫-局部数据提取-数据解析-聚焦爬虫

—

2024-07-10 22:24:34 210

原创 Python爬虫-requests模块

在使用，传播爬取到的数据时，审查抓取到的内容，如果发现了涉及到用户因此商业机密等敏感内容需要及时停止爬取或传播。爬虫程序可以通过制定相关的策略或者技术手段，破解门户网站中具备的反爬机制，从而可以获取门户。门户网站，可以通过制定相应的策略或者技术手段，防止爬虫程序进行网站数据的爬取。抓取的是页面中特定的局部内容。3.你是否在网上购物的时候，想快速且精准的定位到口碑质量最好的商品.- 时常的优化自己的程序，避免干扰被访问网站的正常运行。-爬虫抓取了收到法律保护的特定类型的数据或信息。抓取的是一整张页面数据。

2024-07-09 14:40:07 1142 1

原创 MySQL学习笔记

表中定义了几个字段，insert语句中就应该对应有几个值，插入顺序与表中字段顺序一致insert语句中字段名顺序可与表定义时的顺序不同，相应的插入的值的顺序也随着改变。

2024-05-06 18:45:33 288 1

原创 Python学习笔记——聚类算法：K-means、凝聚层次聚类、基于密度聚类

在单链接聚类中，两个聚类之间的链接距离是两个聚类中最接近的两个点的距离。在方阵中，行和列都代表城市，对角线上的元素是城市与自己之间的距离，非对角线上的元素是城市之间的距离。‘average’（平均链接）：平均链接聚类中，两个聚类之间的链接距离是所有成对点的距离的平均值。‘complete’（完全链接）：与单链接方法相反，完全链接聚类中，两个聚类之间的链接距离是两个聚类中最远的两个点的距离。K均值聚类是一种常见的无监督学习算法，用于将一组数据点分组，使得每个组内的数据点尽可能相似，而组间的数据点尽可能不同。

2024-04-23 21:41:53 2591

原创 Python学习笔记——关联规则（关联分析）

在超市的例子中，如果尿布和啤酒的提升度大于1，那么就说明购买尿布的顾客购买啤酒的概率大于这两个物品独立购买的概率。例如，在超市的数据中，关联分析可能会发现某些商品经常一起被购买，或者在特定的时间段某些商品的销售量会增加。比如，如果我们在所有的购物篮中查看，发现尿布和啤酒一起出现在80%的购物篮中，那么我们就说尿布和啤酒的支持度是80%。如果我们设置的最小支持度是50%，那么只有当尿布和啤酒一起出现在至少50%的购物篮中时，我们才认为这个组合是频繁的。关联分析的目的是找出数据库中的项目之间隐藏的关联性。

2024-04-22 23:03:04 3968 2

原创 Python学习笔记——进阶分类技术：管道函数、网格搜索、Optuna参数优化库、维度规约、单变量统计、自定义得分函数、过采样法

处理pos_label默认值不是1的情况pos_label指的是我们定义的正类标签，即我们希望在预测中优先关注的那个类别。score_func：分类性能函数**kwargsscore_func需要的参数例如，如果，那么**kwargs位置则可写%%time。

2024-04-22 16:18:07 1432 1

原创 Python学习笔记——人工神经网络ANN（Artificial Neural Network ）

k折交叉验证（k-fold cross-validation）是一种评估机器学习模型性能的方法，它通过将训练集分成 k 个大小相等的子集（折叠或折数），然后选择 k-1 个子集作为训练集，剩下的一个子集作为验证集（或测试集），对模型进行 k 次这样的迭代。每次迭代都会评估模型的性能，并使用所有 k 次评估的平均性能来代表模型的整体性能。训练集的每条记录用于训练的次数相同，并且恰好被检验一次。

2024-04-21 15:33:59 2767 1

原创 Python学习笔记——分类技术（决策树和随机森林）

随机森林就像这个情况。它是由很多棵决策树组成的，每棵决策树都是用来解决同一个问题的，但是每棵树都是在一个不同的数据集上训练的，就像你向不同的人询问路线。你可以问很多当地人，每个当地人可能会给你一个不同的答案，有的可能会告诉你走这条路，有的可能会告诉你走那条路。在机器学习中，后剪枝是在模型训练完成，生成了一个完整的模型之后，通过评估每个节点的性能，去除那些对预测任务没有实际帮助的部分，从而简化模型。为一个固定的数值（在这里是10）时，无论你在什么时候运行你的代码，只要其他参数不变，生成的决策树都是相同的。

2024-04-20 15:45:42 1920

原创 Python学习笔记——回归技术

想象一下你正在尝试理解一个房子的价格（因变量，我们通常称之为Y）与几个可能影响房价的因素之间的关系，比如房子的面积（自变量，我们称之为X1）、距离市中心的距离（自变量，我们称之为X2）和房子的年龄（自变量，我们称之为X3）。所以这行代码就像是你在说：“我要用这个逻辑回归工具来判断嫌疑人是不是罪犯，我设置了一个很高的犯错成本，我给了它最多4000次尝试的机会，我选择了一个特别复杂的查找方法来帮助它快速找到答案，并且我要求它每次都按照同样的顺序来处理线索。图例会显示在图表的下方，标出了不同的数据集或组件。

2024-04-19 16:21:27 1058

原创 Python学习笔记——机器学习

计算机通过分析这些数据，学习如何识别模式和特征，从而能够对新的、未见过的数据做出准确的预测或分类。在实际应用中，特征数据和目标数据通常是一起提供的，例如在一个数据集中，特征数据可能包括身高、体重、年龄等，而目标数据则是健康状况或疾病诊断。在机器学习中，“标签”是指给数据添加的标记或注释，它们提供了关于数据的信息或数据的正确答案。在回归问题中，标签可能是数值，如水果的重量或价格。例如，如果我们要构建一个模型来预测房价，那么房价数据将是目标数据，而影响房价的其他因素，如房屋的大小、位置、年龄等，将是特征数据。

2024-04-19 11:12:28 1129

原创 Python学习笔记——Numpy

NumPy是一个功能强大的Python库，主要用于对多维数组执行计算。

2024-04-19 10:07:55 435

原创 Python学习笔记——Pandas

join ：连接方式，可选值'inner'或者'outer' ,‘outer’ 表示连接两个 DataFrame 的外侧，保留所有原始索引。标签列表，例如 ['a','b','c'] ，返回 a,b,c行（DataFrame 类型）how='inner' #连接左右两个 DataFrame 的 index 中共同出现的行。标签切片，例如[ 'a':'c'] ，返回a行-c行（ DataFrame 类型）整数列表，如[[0,2]],返回的是第1行和第3行（DataFrame 类型）

2024-04-19 00:15:22 766

原创 Python数据分析——探索Iris纸鸢花数据

DataFrame 中设置特定的值为学生数组（None 在 Python 中通常表示 NoneType 类型，但在 pandas 中它代表 NaN，即 Not a Number，表示缺失值）。DataFrame 的前 3 行（包含第 1 行、第 2 行和第 3 行），以及所有列，并将这些行的所有值设置为 None。指定了填充缺失值的方法为 “backfill” 或 “bfill”，这是一种向前填充缺失值的方法，即用前一个非缺失值来填充缺失值。这是一种处理缺失数据的方法，可以避免缺失值对数据分析结果的影响。

2024-04-15 18:23:39 2608 1

Waitind_的博客

原创 pandas