自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 【爬虫】爬取某乎文章(含图片)

因为一般的像txt,csv文件是不能存储图片的,而md文件是可以的并且可以支持html标记的。是因为我的pycharm中打开html文件直接报404错误,所以本来我是优先存储为pdf文件的。通过selenium爬取知乎用户主页下的所有文章(含图片)并存储为md文件。③在源代码中通过xpath获取我们想要的内容的目标代码(含图片url)和标题。①通过selenium进行翻页获取完所有文章的详情页url并存储到一个列表。②通过requests获取到的源代码的图片为。所以要把图片url替换为有效的url。

2023-06-27 17:40:27 575

原创 selenium经典操作

selenium做爬虫能解决很多反爬问题,但是selenium也有很多特征可以被识别,比如用selenium驱动浏览器后window.navigator.webdriver值是true,而正常运行浏览器该值是未定义的(undefined)selenium是拿不到iframe里的数据的,如果想要拿到首先定位iframe然后再切换视角到iframe,最后再拿想要的数据。

2023-06-22 16:48:02 558

原创 python爬虫之正则,xpath,bs4基础语法

正则表达式,又称规则表达式(Regular Expression,在代码中常简写为regex、regexp或RE),是一种文本模式,包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为"元字符"),是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个语法规则的字符串,通常被用来检索、替换那些符合某个模式(规则)的文本。—正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。—正则表达式使用单个字符串来描述、匹配一系列匹配某个语法规则的字符串。

2023-06-19 13:27:23 585

原创 numpy知识点

可以看到x3的shape为(3,),x4的shape为(3,1),要满足第一个条件的话x3的shape要在前面加1变成了(1,3)。其次输出数组的shape是输入数组shape各轴的最大值,也就是(1,3),(3,3)各个轴的最大值为(3,3)所以输出数组的shape(3,3)。③如果输入数组的某个轴和输出数组的对应轴的长度相同或其长度为1时,这个数组能够用来计算,否则出错。④当输入数组的某个轴的长度为1时,沿着此轴运算时都用此轴上的第一组值。②输出数组的shape是输入数组shape的各轴上的最大值。

2023-05-24 17:13:42 150

原创 matplotlib知识点

画布与子图之间的关系:一个画布(figure)可以选择是否分为多个区域,而每个区域都有一个坐标系,一个坐标系上可以绘制一个图形(子图)。也就是说,当我们选择隐式创建画布时,系统帮我们创建的figure对象只会有一个区域,也就只能绘制一个图形(子图)。参数loc用于设置图例的位置,取值有’best’,‘upper right’,‘upper left’,‘lower left’,‘lower right’,'center‘等。·hatch:填充样式,取值(/,|,-,+,x,o,O,*)

2023-05-23 21:23:29 282

原创 pandas知识点

drop_duplicates(subset,keep,inplace)方法:去除重复项,针对DataFrame类型数据,返回的是删除重复行的DataFrame数据。nunique方法计算行或列上唯一值的数量,即去重的数量;删除数据直接用drop方法,通过aixs参数确定删除的是行还是列,默认数据删除不修改原数据,如果要修改原数据需要设置参数inplace=True。apply方法对groupby对象进行聚合操作的方法和agg方法相同,只是agg方法能实现对不同字段应用不同的函数,而apply不行。

2023-05-21 20:12:56 216

原创 【爬虫】爬取动态网页内容并储存到表格

爬虫的第一步就是要获取网站的请求url,在这里我们是在第一页,然后点击下一页跳转到第二页之后发现,网页左上角的网址是没有变的。既然这是个动态网页那我们想要的数据肯定不是在网页源代码里的了,所以我们直接右击检查打开开发者工具,然后点击网络,选择Fetch/XHR,刷新网页,查看左边的网页。在我们点进第二页后发现已经刷新出了一些新的数据,我们依次点击,然后查看预览发现第一个就是我们想要的数据,而且很明显可以看出我们想要的数据是json数据。"后面的都是参数,接下来我们看一下参数情况,点击负载。

2023-04-19 18:43:14 1015 1

原创 MySQL之常用函数

MySQL函数是MySQL数据库提供的内置函数。这些内置函数可以帮助用户更加方便地处理表中的数据。内置函数主要有。本篇主要介绍一些常用的函数。

2023-04-11 17:31:07 2171 3

原创 MySQL之数据查询

数据查询是指从数据库中获取所需要的数据。数据查询是数据库操作中最常用,也是最重要的操作。通过不同的查询方式可以获得不同的数据。用户可以根据自己对数据的需求使用不同的查询方式。

2023-04-09 22:33:38 2832

原创 蓝桥--货物摆放(求约数问题)

小蓝有一个超大的仓库,可以摆放很多货物。现在,小蓝有 nn 箱货物要摆放在仓库,每箱货物都是规则的正方体。小蓝规定了长、宽、高三个互相垂直的方向,每箱货物的边都必须严格平行于长、宽、高。小蓝希望所有的货物最终摆成一个大的长方体。即在长、宽、高的方向上分别堆 L、W、H 的货物,满足 n=L×W×H。给定 nn,请问有多少种堆放货物的方案满足要求。例如,当 n = 4时,有以下 6种方案:1×1×4、1×2×2、1×4×1、2×1×2、2×2×1、4×1×1。

2023-04-07 16:24:01 112

原创 MySQL之表数据的增,删,改操作

在一文中,我们已经了解如何创建数据库,数据表等最基本操作。本篇主要介绍对数据表的增,删,改操作。

2023-04-06 16:16:55 1473

原创 MySQL基本操作

指定数据库后,当前数据库在当前工作会话关闭(即断开与该数据库的连接)或再次使用use语句指定数据库时,结束工作状态。使用该语法复制表时,将创建一个有源数据表相同结构的新表,该数据表的列名,数据类型和索引都将被复制,但是表的内容不会被复制的。因此新创建的表是一个空表。例如:添加一个新的字段qq,类型为varchar(10),not null 并且将user类型varchar(30)改为varchar(40)2.使用drop语句删除数据库时,该数据库中的表,以及表中的数据也将永久删除。

2023-04-05 21:32:27 93

原创 数据库基础

(2)外模式:外模式也称用户模式,是数据库用户能够看见和使用的局部数据的逻辑结构和特征的描述,是数据库用户的数据视图,是与某一应用有关的数据的逻辑表示。(1)数据库内数据文件的数据组织应获得最大限度的共享,最小的冗余度,消除数据及数据依赖关系中的冗余部分,使依赖于同一个数据模型的数据达到有效的分离。(3) 内模式:内模式也称存储模式,是数据物理结构和存储方式的描述,是数据在数据库内部的表示方式。数据模型是数据库系统的核心与基础,是关于描述数据与数据之间的联系,数据的语义,数据一致性约束的概念性工具的集合。

2023-04-05 17:58:22 72

原创 蓝桥--全球变暖(python)

你有一张某海域 NxNNxN 像素的照片,"."表示海洋、"#"表示陆地,如下所示:........##.....##........##...####....###........其中"上下左右"四个方向上连在一起的一片陆地组成一座岛屿。例如上图就有 2 座岛屿。由于全球变暖导致了海面上升,科学家预测未来几十年,岛屿边缘一个像素的范围会被海水淹没。具体来说如果一块陆地像素与海洋相邻(上下左右四个相邻像素中有海洋),它就会被淹没。例如上图中的海域未来会变成如下样子:.......

2023-04-03 14:48:56 44

原创 蓝桥--大胖子走迷宫(python)

小明是个大胖子,或者说是个大胖子,如果说正常人占用 1×1 的面积,小明要占用5×5 的面积。由于小明太胖了,所以他行动起来很不方便。当玩一些游戏时,小明相比小伙伴就吃亏很多。小明的朋友们制定了一个计划,帮助小明减肥。计划的主要内容是带小明玩一些游戏,让小明在游戏中运动消耗脂肪。走迷宫是计划中的重要环节。朋友们设计了一个迷宫,迷宫可以看成是一个由n×n 个方阵组成的方阵,正常人每次占用方阵1×1 的区域,而小明要占用 5×5 的区域。小明的位置定义为小明最正中的一个方格。迷宫四周都有障碍物。

2023-04-01 14:21:13 365

原创 面向对象与面向过程

万物皆可为对象,其实任何一个实体都可看作对象。比如一只猫可以是对象,狗可以是对象,飞机,火车也是一个对象。对象包含"属性(变量)"和"行为(方法)"两部分。属性描述这个对象是"什么样子",行为描述这个对象"能做什么"。比如一个公交车,它是绿色的,长为5米,宽为2米那么这个颜色和长宽就是公交车的属性;公交车还有自动开关门,加速,减速的功能,那么这些功能也就是公交车的行为。类其实就是具有相同属性和方法的对象的集合。它定义了该集合中每个对象所共有的属性和方法。

2023-03-28 23:28:45 36

原创 蓝桥--跳跃(模拟赛,简单dp做法)

小蓝在一个 n 行 m 列的方格图中玩一个游戏。开始时,小蓝站在方格图的左上角,即第 1 行第 1 列。小蓝可以在方格图上走动,走动时,如果当前在第 r 行第 c 列,他不能走到行号比 r 小的行,也不能走到列号比 c 小的列。同时,他一步走的直线距离不超过 3。

2023-03-25 19:32:14 221

原创 Python之文件操作

r+虽然有读和写的作用,但它是读为主,写为辅,所以当文件不存在的情况下并不会创建新的文件。open()方法用于打开一个文件,并返回文件对象。在对文件处理过程中都需要使用到该函数,如果文件该文件无法被打开,则会报错。如果模式为w则返回True,如果模式为r则返回False。注意:有open()方法就有close()方法,即操作文件之后要调用close()方法关闭文件。判断文件是否可写,如果文件不存在则会创建文件并返回True。当文件存在并且模式为w时,返回False。当文件存在并且模式为r时,返回True。

2023-03-23 17:01:23 143

原创 蓝桥--迷宫2017(python)

X 星球的一处迷宫游乐场建在某个小山坡上。它是由 10 \times 1010×10 相互连通的小房间组成的。房间的地板上写着一个很大的字母。X 星球的居民有点懒,不愿意费力思考。他们更喜欢玩运气类的游戏。这个游戏也是如此!开始的时候,直升机把 100100 名玩家放入一个个小房间内。玩家一定要按照地上的字母移动。迷宫地图如下:UDDLUULRULUURLLLRRRURRUURLDLRDRUDDDDUUUUURUDLLRRUUDURLRLDLRLULLURLLRDU。

2023-03-20 23:16:20 58

原创 蓝桥--数字三角形(python)

上图给出了一个数字三角形。从三角形的顶部到底部有很多条不同的路径。对于每条路径,把路径上面的数加起来可以得到一个和,你的任务就是找到最大的和。路径上的每一步只能从一个数走到下一层和它最近的左边的那个数或者右 边的那个数。此外,向左下走的次数与向右下走的次数相差不能超过 1。

2023-03-20 22:49:43 280

原创 蓝桥--迷宫(python)

下图给出了一个迷宫的平面图,其中标记为 11 的为障碍,标记为 00 的为可以通行的地方。迷宫的入口为左上角,出口为右下角,在迷宫中,只能从一个位置走到这 个它的上、下、左、右四个方向之一。对于上面的迷宫,从入口开始,可以按DRRURRDDDR的顺序通过迷宫, 一共 1010 步。其中 D、U、L、RD、U、L、R 分别表示向下、向上、向左、向右走。对于下面这个更复杂的迷宫(3030 行 5050 列),请找出一种通过迷宫的方式,其使用的步数最少,在步数最少的前提下,请找出字典序最小的一个作为答案。

2023-03-19 21:05:05 252

原创 二叉树的前中后序遍历(python)

给你二叉树的根节点root,返回它节点值的遍历。

2023-03-14 20:04:51 137

原创 python基本数据类型

python基本数据类型笔记

2023-03-05 19:33:12 97

原创 蓝桥--火星人(python)

在这之前先给大家了解下“下一个排列“的定义。

2023-01-10 15:04:19 312 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除