自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(97)
  • 收藏
  • 关注

原创 Python与MongoDB交互-%dM

的格式,那么它可能是由MongoDB服务器或与之交互的某个工具或库生成的,用于提供有关内存使用、存储大小或其他以百万为单位的度量的信息。然而,要准确理解这个格式的含义,你需要查看生成该消息的特定上下文或文档。库直接提供的一部分。然而,这样的格式化字符串可能出现在与MongoDB交互的某些日志消息、错误信息或查询字符串中,特别是在处理日期、时间或持续时间时。更可能的是,这样的格式出现在你自己的代码中,用于格式化输出或与用户交互的字符串。是一个标准的Python字符串格式化操作符,用于将整数插入到字符串中。

2024-09-30 15:32:45 167

原创 Python与MongoDB交互-**

,这通常是在调用函数或方法时使用了关键字参数(keyword arguments)的语法。这种语法允许你传递一个字典给函数,并将其内容作为关键字参数。这在动态构建参数集合时特别有用,尤其是当你不知道在运行时将要传递哪些参数时。可能用于其他函数或方法的调用,但它始终表示将字典解包为关键字参数。在Python与MongoDB交互的上下文中,当你看到两个连续的星号(相反,它是Python语言本身的一部分,用于函数调用。中的函数或方法的例子(尽管这个例子并不特定于MongoDB,但它展示了。然而,需要注意的是,

2024-09-30 15:30:01 117

原创 Python与MongoDB交互-sort

操作是在服务器端执行的,这意味着MongoDB服务器会返回已经排序的文档集合,而不需要在客户端进行额外的排序操作。这有助于减少网络传输的数据量和客户端的处理负担。是一个查询操作的一部分,它用于对查询结果集中的文档进行排序。方法接受一个或多个元组作为参数,每个元组包含两个元素:字段名和排序方向(方法来实现,每个元组指定一个字段和排序方向。(MongoDB的Python驱动程序)中,你可以通过。方法来指定排序的字段和排序的方向(升序或降序)。会返回一个查询结果集,其中的文档按。字段升序排序,然后在。

2024-09-30 15:27:32 98

原创 Python与MongoDB交互-distinct

是一个查询操作,它用于返回指定字段中所有不同的(即唯一的)值。这个操作对于获取集合中某个字段的所有唯一值非常有用,比如获取所有不同的用户角色、商品类别或者任何你想要分析的唯一值集合。操作是在服务器端执行的,这意味着它只返回满足条件的唯一值集合,而不会将整个数据集加载到客户端内存中。这有助于减少网络传输的数据量和客户端的内存使用。方法,你可以通过它指定要返回唯一值的字段名。这个方法返回一个列表,包含了集合中该字段的所有不同值。参数,用于指定一个查询过滤器。操作将只返回满足过滤器条件的文档中的唯一值。

2024-09-30 15:25:25 172

原创 Python与MongoDB交互-skip

因此,如果集合中有足够的文档,这个查询将返回第6、7、8个文档(假设文档是按某种顺序存储的,尽管在MongoDB中通常没有固定的顺序,除非使用了排序)。相反,MongoDB服务器只返回满足条件的文档,这有助于减少网络传输的数据量和客户端的内存使用。是一个查询操作的一部分,它用于跳过指定数量的文档(documents)在返回结果集之前。这在你需要分页显示大量数据时特别有用,或者当你想要跳过某些文档并只获取之后的文档时。这样,你可以控制查询返回的数据量,并遍历整个数据集,每次处理一部分。

2024-09-30 15:22:49 99

原创 Python与MongoDB交互-client

在Python与MongoDB交互的上下文中,"client" 通常指的是与MongoDB数据库服务器建立连接的客户端对象。这个客户端对象允许你执行各种数据库操作,比如查询、插入、更新和删除数据。类,用于创建与MongoDB服务器的连接。一旦建立了连接,你就可以通过这个。实例访问数据库和集合(collection),并执行所需的操作。实例,它代表了与MongoDB服务器的连接。MongoDB的Python驱动程序(如。下面是一个简单的例子,展示了如何使用。,我们可以访问数据库(),并执行数据库操作。

2024-09-30 15:17:30 104

原创 Python与MongoDB交互-2

datetime.timedelta(hours=8):时间+8小时。根据id删除:gfs.delete(ObjectId("id值"))排序,sort函数,参数传入列表,列表中可以有多个排序条件。删除多条数据:delete_many。删除一条数据:delete_one。排序条件中正数为升序,负数为降序。分页查询:skip(n)注意:对查询结果进行排序。去重:distinct。**:可自动结构数据。

2024-09-30 15:07:27 94

原创 Python与MongoDB交互-1

创建一个MongoClient对象,用于连接MongoDB服务器:client = MongoClient('mongodb://账号:密码@localhost:27017/')teacher = client.school.teacher.find_one({"name":"兰陵王"})从pymongo引入工具:from pymongo import MongoClient。{"name":"兰陵王"},{"name":"百里玄策"}查询所有,无条件查询。

2024-09-30 14:49:43 137

原创 MongoDB-1

例:30以下的男,25以下的女:db.student.find({$or:[{age:{$lt:30},sex:"男"},{age:{$lt:25},sex:"女"}]})插入多条数据:db.student.insertMany([{name:"张三",age:30},{name:"李四",age:30}])删除职务:db.student.update({name:"曹操"},{$pull:{role:"教务主任"}})

2024-09-29 16:41:35 375

原创 MongoDB-数据导入

【代码】MongoDB-数据导入。

2024-09-29 16:25:16 229

原创 MongoDB-数据导出

【代码】MongoDB-数据导出。

2024-09-29 16:24:40 171

原创 MongoDB-索引

在MongoDB中,和(是两个非常重要的命令,它们分别用于创建索引和删除索引。索引对于提高MongoDB的查询性能至关重要,特别是在处理大量数据时。

2024-09-29 16:10:05 254

原创 MongoDB-$exists

操作符是处理MongoDB中文档字段存在性检查的一个非常有用的方式。它允许你根据字段是否存在来过滤文档,这在处理数据清洗、验证或确保数据完整性时特别有用。是一个查询操作符,用于检查文档中的字段是否存在。如果指定的字段存在于文档中,那么该查询条件就为真(true),文档将被包含在查询结果中。的集合,里面存储了用户的信息,你可能想要查询所有拥有。相反,如果你想要查询不包含某个字段的文档,可以使用。例如,假设你有一个名为。这条查询会返回所有包含。如果你想要查询那些没有。在MongoDB中,表示该字段应该存在。

2024-09-29 15:33:47 124

原创 Studio 3T-安装

Studio 3T编辑器安装地址:

2024-09-29 15:30:45 219

原创 MongoDB-安装

MongoDB安装地址:MongoDB服务开启:

2024-09-29 15:29:18 247

原创 爬虫-scrapy

2024-09-27 17:00:22 199

原创 爬虫-元素隐式等待

隐式等待5秒:test_webdriver.implicitly_wait(5)test_webdriver.get("网址")print("无此元素")

2024-09-27 16:54:05 160

原创 爬虫-元素的显示等待

WebDriverWait:参数1:driver驱动对象,参数2:超时时长(秒),参数3:检查间隔(秒)WebDriverWait设置显示等待。until,EC场景判断,进行元素选择。

2024-09-27 16:46:16 154

原创 爬虫-网页刷新与切换

页面前进至百度新闻页面:test_webdriver.forward()刷新页面:test_webdriver.refresh()返回百度首页:test_webdriver.back()离开:test_webdriver.quit()

2024-09-27 16:44:27 199

原创 爬虫-鼠标控制

加载web驱动工具:test_webdriver = webdriver.Edge()test_webdriver.maximize_window():窗口最大化。move_to_element:鼠标划入。time.sleep(3):睡眠3秒。

2024-09-27 16:41:55 232

原创 爬虫-selenium

下载:

2024-09-26 17:04:52 262

原创 Google

chrome 版本号查询:chrome 驱动器下载地址:

2024-09-26 17:00:46 222

原创 爬虫-访问搜索引擎数据

test_webdriver.get("某书店网站")以get方式向目标发起请求。

2024-09-26 16:54:05 189

原创 爬虫-访问动态网页

以get方式向目标发起请求。获取当前浏览器的标头。

2024-09-26 16:44:32 242

原创 爬虫-CSS选择器

select方法中传入多个css选择器,获取到最后一个。嵌套获取元素中的数据。

2024-09-26 16:33:16 338

原创 爬虫-属性选择器

这个词的具体含义可能会根据你所使用的库或框架而有所不同,但通常它指的是在解析HTML或XML文档时,用于指定你想要提取或关注的元素(如标签)的特定属性(attributes)。find_all_previous 和 find_previous:前者返回节点前所有符合条件的节点,后者返回第一个符合条件的节点。find_all_next 和 find_next:前者返回节点后所有符合条件的节点,后者返回第一个符合条件的节点。等方法来提取数据,并可以指定元素的属性。的角色,因为它包含了你要查找的元素的属性。

2024-09-26 16:31:53 497

原创 爬虫-方法选择器

获得当前文本中所有ul标签。

2024-09-26 16:26:16 172

原创 爬虫-bs4-4

获取a节点的父节点,获得一个直接的父节点。获取a标记的下一个兄弟节点。获取a标记的上一个兄弟节点。获取之后的所有兄弟节点。获取之前的所有兄弟节点。

2024-09-26 16:23:11 187

原创 爬虫-bs4-3

children:获得的是列表迭代器对象,需要遍历获得具体内容;通过contents或children可以获得基金子集;嵌套调用,可以调用到某一元素子集或后代集;获得后代集,调用descendants属性。contents:获得的是字符串列表;

2024-09-26 16:18:06 246

原创 爬虫-bs4-2

attrs会返回标签中的所有属性,返回的值是字典;根据属性的性质来识别返回的是列表还是字符串;如,class具有多个含义,返回的是列表。当有多个相同标记时,只能匹配到第一个节点,忽略其他节点:print(soup.p)获取标记标题类型:print(type(soup.title))获取标记内容:print(soup.title.string)获取节点名称:print(soup.title.name)获取标记:print(soup.head)参数1:目标字符串;

2024-09-25 16:19:28 174

原创 爬虫-bs4-1

爬虫中的bs4指的是,它是一个Python库,主要用于网页的解析和数据的提取。Beautiful Soup 4能够轻松地解析HTML/XML文件,快速从中提取需要的信息,并根据开发人员的需求对返回的数据进行处理。

2024-09-25 16:13:37 439

原创 爬虫-lxml-2

使用“//”返回一个列表,每一个元素都是一个element类型:result = html.xpath("//li/a/text()")根据属性值获取元素内容:result = html.xpath("//li/a[@href='link1.html']/text()")查找li标记下最后一个a标记的href值:result = html.xpath("//li[last()]/a/@href")“//”返回使用匹配的:result = html.xpath("//li//span/text()")

2024-09-25 16:10:58 173

原创 爬虫-lxml-1

在爬虫技术中,。它是基于C语言实现的,因此具有很高的性能和灵活性,被广泛应用于爬虫开发、数据提取和数据清洗等领域。

2024-09-25 16:02:45 303

原创 爬虫-xpath

在爬虫(Web Crawler)技术中,XPath 是一种在 XML 文档中查找信息的语言。由于 HTML 是 XML 的一种实现(尽管 HTML5 并不是严格的 XML),XPath 也被广泛用于从 HTML 文档中提取数据。XPath 提供了强大的路径表达式来定位和操作 XML 文档中的节点(如元素、属性等)。在爬虫开发中,XPath 经常被用来定位网页中的特定元素,以便提取所需的数据。例如,你可能想要从一个网页中提取所有的链接、图片地址、或者特定类名的元素内容。表示选择文档中的任何位置,

2024-09-25 15:57:53 386

原创 爬虫-xpath方法

3.点击右上角红框图案,再点“XPath Helper”;2.打开Google浏览器要爬取的页面;5.“Fn”+“F12”——控制台。

2024-09-25 14:17:12 222

原创 爬虫-引xpath

2.打开Google浏览器:点击右上角“三个点”——扩展程序——管理扩展程序;5.找到已解压的xpath文件,选择文件夹,显示“扩展程序已加载完毕”;1.将xpath压缩包放至指定位置,解压缩,记住路径;4.打开开发者模式,点“加载已解压的扩展程序”;6.关闭开发者模式,引入完毕。

2024-09-25 13:28:41 221

原创 爬虫-字符串边界匹配

2024-09-24 16:24:38 459

原创 爬虫-预定义字符集匹配

2024-09-24 16:23:30 370

原创 爬虫-贪婪匹配

在爬虫中,尤其是在使用正则表达式进行文本匹配时,贪婪匹配(Greedy Matching)是一个重要的概念。:当整个正则表达式无法在某个位置匹配成功时,匹配引擎会回溯(即放弃最近一次匹配到的字符),并尝试更少的字符匹配,直到找到满足整个正则表达式匹配的字符串片段。:在某些情况下,贪婪匹配会一次性读入整个字符串进行匹配,然后通过回溯机制逐步舍弃最右边的字符,直到找到匹配项或整个字符串被舍弃完。中的范围等)时,匹配引擎会尽可能多地匹配字符,直到满足整个正则表达式的匹配要求或达到字符串的末尾。

2024-09-24 16:20:16 428

原创 爬虫-sub

在爬虫中,特别是在使用Python进行网络爬虫开发时,sub通常不是爬虫技术或库中的一个直接元素,而是正则表达式操作中的一个重要函数。不过,这里的sub实际上是re.sub()方法的简称,它是Python标准库re模块中的一个函数。

2024-09-24 16:17:47 401

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除