自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 Python爬虫-爬取三国演义文本数据-bs4

1.将本地的html文档中的数据加载到该对象中。- 2.将互联网上获取的页面源码加载到该对象中。-2.通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取。- 1.实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中。先使用通用爬虫爬取页面所有数据,再解析标题内容。-2.提取标签、标签属性中存储的数据值。爬取三国演义文本数据。

2024-07-12 16:36:32 391

原创 Python爬虫-正则分页数据解析(先爬取整张页面再提取局部数据)-爬取糗图百科图片

【代码】Python爬虫-数据解析(先爬取整张页面再提取局部数据)

2024-07-12 09:06:22 385

原创 Python爬虫-局部数据提取-数据解析-聚焦爬虫

2024-07-10 22:24:34 103

原创 Python爬虫-requests模块

在使用,传播爬取到的数据时,审查抓取到的内容,如果发现了涉及到用户因此商业机密等敏感内容需要及时停止爬取或传播。爬虫程序可以通过制定相关的策略或者技术手段,破解门户网站中具备的反爬机制,从而可以获取门户。门户网站,可以通过制定相应的策略或者技术手段,防止爬虫程序进行网站数据的爬取。抓取的是页面中特定的局部内容。3.你是否在网上购物的时候,想快速且精准的定位到口碑质量最好的商品.- 时常的优化自己的程序,避免干扰被访问网站的正常运行。-爬虫抓取了收到法律保护的特定类型的数据或信息。抓取的是一整张页面数据。

2024-07-09 14:40:07 620

原创 MySQL学习笔记

表中定义了几个字段,insert语句中就应该对应有几个值,插入顺序与表中字段顺序一致insert语句中字段名顺序可与表定义时的顺序不同,相应的插入的值的顺序也随着改变。

2024-05-06 18:45:33 245 1

原创 Python学习笔记——聚类算法:K-means、凝聚层次聚类、基于密度聚类

在单链接聚类中,两个聚类之间的链接距离是两个聚类中最接近的两个点的距离。在方阵中,行和列都代表城市,对角线上的元素是城市与自己之间的距离,非对角线上的元素是城市之间的距离。‘average’(平均链接):平均链接聚类中,两个聚类之间的链接距离是所有成对点的距离的平均值。‘complete’(完全链接):与单链接方法相反,完全链接聚类中,两个聚类之间的链接距离是两个聚类中最远的两个点的距离。K均值聚类是一种常见的无监督学习算法,用于将一组数据点分组,使得每个组内的数据点尽可能相似,而组间的数据点尽可能不同。

2024-04-23 21:41:53 1101

原创 Python学习笔记——关联规则(关联分析)

在超市的例子中,如果尿布和啤酒的提升度大于1,那么就说明购买尿布的顾客购买啤酒的概率大于这两个物品独立购买的概率。例如,在超市的数据中,关联分析可能会发现某些商品经常一起被购买,或者在特定的时间段某些商品的销售量会增加。比如,如果我们在所有的购物篮中查看,发现尿布和啤酒一起出现在80%的购物篮中,那么我们就说尿布和啤酒的支持度是80%。如果我们设置的最小支持度是50%,那么只有当尿布和啤酒一起出现在至少50%的购物篮中时,我们才认为这个组合是频繁的。关联分析的目的是找出数据库中的项目之间隐藏的关联性。

2024-04-22 23:03:04 1919 1

原创 Python学习笔记——进阶分类技术:管道函数、网格搜索、Optuna参数优化库、维度规约、单变量统计、自定义得分函数、过采样法

处理pos_label默认值不是1的情况pos_label指的是我们定义的正类标签,即我们希望在预测中优先关注的那个类别。score_func:分类性能函数**kwargsscore_func需要的参数例如,如果,那么**kwargs位置则可写%%time。

2024-04-22 16:18:07 956 1

原创 Python学习笔记——人工神经网络ANN(Artificial Neural Network )

k折交叉验证(k-fold cross-validation)是一种评估机器学习模型性能的方法,它通过将训练集分成 k 个大小相等的子集(折叠或折数),然后选择 k-1 个子集作为训练集,剩下的一个子集作为验证集(或测试集),对模型进行 k 次这样的迭代。每次迭代都会评估模型的性能,并使用所有 k 次评估的平均性能来代表模型的整体性能。训练集的每条记录用于训练的次数相同,并且恰好被检验一次。

2024-04-21 15:33:59 1259 1

原创 Python学习笔记——分类技术(决策树和随机森林)

随机森林就像这个情况。它是由很多棵决策树组成的,每棵决策树都是用来解决同一个问题的,但是每棵树都是在一个不同的数据集上训练的,就像你向不同的人询问路线。你可以问很多当地人,每个当地人可能会给你一个不同的答案,有的可能会告诉你走这条路,有的可能会告诉你走那条路。在机器学习中,后剪枝是在模型训练完成,生成了一个完整的模型之后,通过评估每个节点的性能,去除那些对预测任务没有实际帮助的部分,从而简化模型。为一个固定的数值(在这里是10)时,无论你在什么时候运行你的代码,只要其他参数不变,生成的决策树都是相同的。

2024-04-20 15:45:42 1190

原创 Python学习笔记——回归技术

想象一下你正在尝试理解一个房子的价格(因变量,我们通常称之为Y)与几个可能影响房价的因素之间的关系,比如房子的面积(自变量,我们称之为X1)、距离市中心的距离(自变量,我们称之为X2)和房子的年龄(自变量,我们称之为X3)。所以这行代码就像是你在说:“我要用这个逻辑回归工具来判断嫌疑人是不是罪犯,我设置了一个很高的犯错成本,我给了它最多4000次尝试的机会,我选择了一个特别复杂的查找方法来帮助它快速找到答案,并且我要求它每次都按照同样的顺序来处理线索。图例会显示在图表的下方,标出了不同的数据集或组件。

2024-04-19 16:21:27 897

原创 Python学习笔记——机器学习

计算机通过分析这些数据,学习如何识别模式和特征,从而能够对新的、未见过的数据做出准确的预测或分类。在实际应用中,特征数据和目标数据通常是一起提供的,例如在一个数据集中,特征数据可能包括身高、体重、年龄等,而目标数据则是健康状况或疾病诊断。在机器学习中,“标签”是指给数据添加的标记或注释,它们提供了关于数据的信息或数据的正确答案。在回归问题中,标签可能是数值,如水果的重量或价格。例如,如果我们要构建一个模型来预测房价,那么房价数据将是目标数据,而影响房价的其他因素,如房屋的大小、位置、年龄等,将是特征数据。

2024-04-19 11:12:28 991

原创 Python学习笔记——Numpy

NumPy是一个功能强大的Python库,主要用于对多维数组执行计算。

2024-04-19 10:07:55 262

原创 Python学习笔记——Pandas

join :连接方式,可选值'inner'或者'outer' ,‘outer’ 表示连接两个 DataFrame 的外侧,保留所有原始索引。标签列表,例如 ['a','b','c'] ,返回 a,b,c行(DataFrame 类型)how='inner' #连接左右两个 DataFrame 的 index 中共同出现的行。标签切片,例如[ 'a':'c'] ,返回a行-c行( DataFrame 类型)整数列表,如[[0,2]],返回的是第1行和第3行(DataFrame 类型)

2024-04-19 00:15:22 672

原创 Python数据分析——探索Iris纸鸢花数据

DataFrame 中设置特定的值为学生数组(None 在 Python 中通常表示 NoneType 类型,但在 pandas 中它代表 NaN,即 Not a Number,表示缺失值)。DataFrame 的前 3 行(包含第 1 行、第 2 行和第 3 行),以及所有列,并将这些行的所有值设置为 None。指定了填充缺失值的方法为 “backfill” 或 “bfill”,这是一种向前填充缺失值的方法,即用前一个非缺失值来填充缺失值。这是一种处理缺失数据的方法,可以避免缺失值对数据分析结果的影响。

2024-04-15 18:23:39 1646 1

原创 Python数据分析——分析全球酒类消费数据

mean’ 函数计算平均值,‘max’ 函数找到每个组中的最大值,而 ‘min’ 函数找到每个组中的最小值。这意味着数据将根据不同的大陆进行划分,每个大陆的数据将被视为一个组。这意味着数据将根据不同的大陆进行划分,每个大陆的数据将被视为一个组。这意味着数据将根据不同的大陆进行划分,每个大陆的数据将被视为一个组。这意味着数据将根据不同的大陆进行划分,每个大陆的数据将被视为一个组。: 这部分指定了要对其进行统计描述的列,这里是 ‘wine_servings’ 列,即葡萄酒消费量列。

2024-04-15 18:11:12 1182 1

原创 Python数据分析——分析欧洲杯数据集

iloc[]是 pandas DataFrame 的一个方法,用于基于整数的位置索引来选择数据。表示选择所有的行。:-3表示选择列的范围,从第一列(索引为0)到最后第三列(索引为-3)之前的所有列。在Python中,负数索引表示从最后一项开始倒数,因此:-3会包含索引为0到索引为-4的所有列,但不包括索引为-3的列。因此,会返回一个新的 DataFrame,其中包含euro的所有列,但不包括最后一列到倒数第三列之间的数据。print(...)这行代码会打印出通过方法选择的数据。

2024-04-15 18:03:03 812

原创 Excel数据分析基础

ctrl+shift+L 筛选模式UV(unique visitor):门店曝光量、门店访问量、门店下单量#去重,一天内同个访客多次访问仅计算一个UVPV(page view):曝光人数、进店人数、下单人数#不去重,用户对同一页面的多次访问会累计CPC(cost per click):广告投放费用#每产生1次点击所花费的成本GMV(gross merchandise volume):营业额、拍下订单金额含未付款的部分。

2024-03-18 23:09:22 120

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除