自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 Pandas异常值处理

在Pandas中,异常值(或称为离群值)是数据中那些与其他数据点显著不同的点。这些异常值可能是由于错误、异常事件或数据的自然变异产生的。处理异常值的方法取决于数据的性质、分析的目的以及异常值对分析的影响。在异常值处理的时候可能会用到的函数①、describe():查看每一列的描述性统计量②、df.info():查看数据信息③、df.std():可以求得DataFrame对象每一列的标准差④、df.drop():删除特定索引⑤、unique():唯一,去重⑥、query():按条件查询。

2024-06-12 21:48:28 991

原创 Pandas库的介绍

Pandas是基于NumPy的一种工具,该工具是为解决数据分析任务而创建的,Pandas提供了大量能使我们快速便捷地处理数据的功能。Pandas与出色的Jupyter工具包和其他库结合,Python中用于进行数据分析的环境在性能,生产率和协作能力方面都是卓越的。Pandas的主要数据结构是Series(一维数据)与DantFrame(二维数据),这两种数据结构足以处理金融、统计、社会科学、工程等领域里的大多数案例。处理数据一般分为几个阶段。

2024-06-07 21:57:23 1039

原创 初学网络爬虫

数据采集定义:又称数据采取,搜索符合数据挖掘研究要求的原始数据。数据采集:为数据目标源、采集方式、数据采集形式。爬虫技术:请求网站并提取数据的自动化程序。反爬虫技术:headers字段、登录、IP、验证码。

2024-05-23 23:14:45 1014 1

原创 二维树状数组以及树状数组的应用

对于每个a[j] 而言, 可以快速求出有多少个数字小于等于a[j], 已经放了j 个数字进入树状数组,剩下的数字为大小a[j] 的数字。1、数值大小不重要,重要的是偏序关系,可以离散化成1 - n。把a数组数值当做下标, 从左往右依次放入树状数组中。逆序对:a[i] > a[j] 对于i < j 而言。①、一维的功能是:单点修改,区间查询。②、二维:单点修改,矩阵查询。给定一个长度为n的列表,求存在多少个逆序对。二维树状数组是在一维上进行嵌套。

2024-05-23 22:10:21 177 1

原创 树状数组(py)

每个询问的第一个整数表示询问代号,询问代号表示增加,后面的两个数x和A\表示X 上的位置增加A,询问代号表示区间求和, 后面两个整数表示a和b,表示要求[a, b]之间的区间和。lowbit (x):可以求出数字x的最低位、 性质:lowbit(x) = x & (-x)。理论方面的我号蒙,代码的实现过程我也特别蒙,不过代码模版我还是能够熟练的敲出来。上述的性质是由于补码的特性导致的,正数x的补码等于二进制,负数的补码等于反码 x + 1。②、修改:指定某一个格子x,令x加上或者减去一个特定的值A。

2024-05-23 20:37:18 312 1

原创 并查集(py)

对于每个集合,记录p[x]表示x的父节点,初始化p[x] = x。合并几个x, y ,找到点x的根节点rootx,点y的根节点rooty,设置p[rootx] = rooty。合并两个集和——将一个集合所在的树作为另一个集合的子树即可。判断两个集合是否属于同一集合——判断根节点是否相同。时间复杂度:Query:O(n), Merge:O(n)合并两个集合,判断两个集合是否属于同一集合。操作序列:a, b, c, d,. e. f。N个互不相同的集合,需要进行一下两个操作:、传统策略:给每个集合编号即可。

2024-05-22 13:13:40 251 1

原创 欧拉函数(py)

若gcd(a, b) = 1,则q(ab) = q(a)q(b)①、若p为质数:q(p) = p - 1,特殊的:q(1) = 1。欧拉函数q(n), 表示下于等于n中和n互质的数字个数。(p - 1),因为所以不互质的数字为{xp|x。当n为奇数时:q(2n) = q(n)②、当p为质数:q(

2024-05-17 19:44:05 201

原创 费马小定理和逆元

裴蜀定理: 对于任意整数a,b, m, 求解未知整数x,y对于一下形式:上述有解必须满足:即m是的倍数,有解等价于。因此,对于上述问题:

2024-05-17 19:09:27 135

原创 质数距离和_蓝桥杯05_16浅浅打个卡

【代码】质数距离和_蓝桥杯05_16浅浅打个卡。

2024-05-16 23:39:41 135

原创 阶乘的约数和

【代码】阶乘的约数和。

2024-05-16 00:24:50 124

原创 唯一分解定理

唯一分解定理:又叫做算数基本定理,任意一个大于1的整数N,要么为质数,要么可以分解为有限个质数的乘积、

2024-05-15 22:45:52 142

原创 质数,埃氏筛线性筛python

线性筛法正是从这个地方着手改进,它的核心思想是在筛的过程中,每个合数都只被它的最小质因子筛去。然后从2开始,对于每个数i,如果i是质数或者i的最小质因子大于当前遍历的质数,则将当前质数标记为i的最小质因子;它的基本思想是从2开始,将每个素数的倍数都标记为合数,直到遍历完所有小于给定数的自然数。线性筛法通常用于快速处理大范围内质数筛选的场景,例如求小于或等于某个数n的所有质数,并对每个数的质因数分解有快速的处理能力。质数:也被称为素数,在大于1的自然数,除了1和它本身以外不在有其他因子的自然数。

2024-05-15 21:58:13 301 1

原创 哈希表(python)

由于哈希表的大小是有限的, 而要存储的值总数量是无限的,因此对于任何哈希函数,都会出现两个不同元素映射到同一个位置上的情况,这种情况叫做哈希冲突。③、二度哈希:有n个哈希函数,当使用第一个哈希函数h1发生冲突时,则尝试使用h2, h3,...开放寻址法:如果哈希函数返回的位置已经有值,则可以向后探查新的位置来存储这个值。比如:h(k) = k % 7,h(0) = h(7) = h(14) = ....。哈希函数 h(k) 将元素关键字k作为自变量,返回元素的存储下标。假设有一个长度为7 的哈希表,

2024-05-14 19:46:36 381 2

原创 蓝桥杯每日一题,奇怪的数列(快慢指针)

【代码】蓝桥每日一题,奇怪的数列(快慢指针)

2024-05-14 12:46:31 157 1

原创 背包问题(python)

先浅浅的占个位置,接下来的三天内补上。

2024-05-12 22:52:47 277 1

原创 numpy库的使用

Python 标准库中提供了一个array类型,用于保存数组类型数据,然而这个类型不支持多维数据,处理函数也不够丰富,不适合数值运算。因此,Python语言的第三方库numpy 得到了迅速的发展,至今,numpy 已经成为了科学计算事实上的标准库。numpy 库处理的最基础的数据类型是由同种元素构成的多维数组,(ndarray),简称“数组”。数组中所有元素的类型必须相同,数组中的元素可以用整数索引,序号从开始。

2024-05-12 22:36:51 559 1

原创 BFS搜索(python)

2.3、对于和u相连的所以点v。只要v未标记,将v入队列,打标记,更新距离。给节点分层,从起点,每次把第一步能走到的点全部走一遍。2.2、当u是终点,break。bfs遍历:一般用来求最短路。这道题直接按照bfs的遍历的步骤来模拟即可。2.1、取出对首元素u。1、将起点入队列,打标记,更行距离。来一个模版题:熟悉bfs的应用。

2024-05-11 23:44:19 337 1

原创 DFS搜索(python)

搜索算法:穷举问题解空间部分/全部情况,从而求出问题的解深度优先搜索:①:本质上是暴力枚举②:尽可能一条路走到底,走不了再回退。(一条路走到底,走不了再回退)回溯:就是dfs的一种,在搜索尝试过程中寻找问题的解,当发现已经不满足要求条件时,就,“回溯”返回,尝试别的路径。回溯更强调:此路不通,另行他路,走过的路需要打标记回溯法是一般dfs的好基础上加上一些剪枝策略。

2024-05-11 21:19:27 663 1

原创 图论最短路

初始化:如果 无边,则dp[i][j] = inf, 有边等于边权;知道了转移方程接下来只需要枚举所以的k,判断是否可以作为中间点,可以作为中间点则优化最短路。对于从u到v,权重为w的边 d[v] = min(d[u], w)核心思想:从起点出发,每次选择距离最短的带点进行“松弛”操作。这一听相对上一题比较复杂,有的地方可能不太好理解,我的代码注释的会比较详细。Floyd算法:用于求解多源最短路,可以求解出任意的两点的最短路。2、不断取出队列中的距离最小的点u,进“松弛”。

2024-05-10 23:22:17 394

原创 动态规划,线性dp(python)

2、确定状态:此处的“状态”代指不同的子问题,例如前面dp[n]表示上n台阶的方案数,其中 n 就是状态;要走到底n级台阶,要么从n - 1走一步过去,要么从n - 2一步走过去,因此得到第n个台阶的方案数等于n – 1个台阶方案数加 n – 1个台阶的方案数。最优子结构:大问题的最优解包含小问题的最优解,通过小问题可以推导出大问题。子问题:n - 1个台阶的上楼方案数,n - 2个台阶的上楼方案数、n - 3个台阶的上楼方案数....1、拆分子问题:将原问题拆分为子问题,找到问题之间的联系。

2024-05-08 13:59:02 410

原创 排序(python实现)

【代码】排序(python实现)①.列表两个相邻的数,如果前面的比后面的大,则交换这两个数②.一趟排序完成后,则无序区减少了一个数,有序区增加一个数

2024-01-28 22:29:06 438

原创 datetime模块

【代码】datetime模块。

2024-01-25 11:58:05 392

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除