自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(61)
  • 收藏
  • 关注

原创 python网站地图解析

请注意,这个脚本假设了sitemap.xml遵循Sitemap协议,并使⽤了标准的命名空间http://www.sitemaps.org/schemas/sitemap/0.9。实际的sitemap.xml⽂件可能会包含多个sitemap索引⽂件的链接,特别是在⼤型⽹站上,这种情况下,可能需要递归地处理这些索引⽂件来获取全部的⻚⾯链接。分析: ⽹站的地图(sitemap.xml)是⼀个XML⽂件,列出了⽹站上所有可访问的⻚⾯的URL。它使⽤ requests.get 发送⼀个GET请求以获取⽂件的内容。

2024-06-19 17:00:00 259

原创 Oracle数据库之PL/SQL存储过程、存储函数(二十二)

在Oracle数据库中,PL/SQL是用于存储和执行SQL语句和PL/SQL代码块的强大语言。使用PL/SQL,你可以创建存储过程(Stored Procedure)和存储函数(Stored Function)。这两种类型的数据库对象都允许你封装复杂的逻辑和计算,并在需要时从数据库应用程序中调用它们。

2024-06-19 10:00:00 172

原创 python反爬⾍策略应对

1. 更换⽤⼾代理(User-Agent):很多⽹站会检查HTTP请求的 User-Agent 字段来识别爬⾍。4. 使⽤Selenium:对于⾼度动态的⽹站或当⽹站使⽤了复杂的JavaScript来加载内容时,可以使⽤Selenium模拟真实⽤⼾的浏览器⾏为。通过在请求之间添加适当的延迟,可以减少被检测的⻛险。• 使⽤爬⾍时,请确保遵守⽬标⽹站的 robots.txt ⽂件规定和相关法律法规,尊重⽹站的数据使⽤政策。应对⽹站的反爬⾍措施通常涉及到⼀系列技术和策略,以模仿正常⽤⼾的⾏为或规避检测机制。

2024-06-18 18:00:00 374

原创 Oracle数据库之使用DML语句处理数据及控制事务(二十一)

在 Oracle 数据库中,DML(Data Manipulation Language)语句用于处理(即插入、更新、删除)数据,而事务控制则用于确保数据的一致性和完整性。下面是一些基本的 DML 语句和事务控制的例子。

2024-06-18 13:53:19 347

原创 Oracle数据库之使用DDL语句管理表、约束(二十)

在Oracle数据库中,DDL(Data Definition Language)语句用于定义和管理数据库结构,如表、约束、索引等。以下是如何使用DDL语句来管理表和约束的一些示例。

2024-06-16 10:45:00 274

原创 Oracle数据库之多行函数(十九)

Oracle多行函数(也称为聚合函数或组函数)作用于一组数据,并对该组数据返回一个单一的值。这些函数在处理分组数据或对整个表进行汇总操作时非常有用。

2024-06-15 09:30:00 291

原创 Oracle数据库之单行函数(十八)

Oracle单行函数(Scalar Functions)是那些对表中的每一行返回一个值的函数。这些函数不会改变表中的数据,而是基于输入参数或表中的一列或多列返回一个新的值。Oracle提供了大量的内置单行函数,用于处理各种数据类型,如数字、字符串、日期等。

2024-06-14 16:30:00 583

原创 Oracle数据库之 函数(十七)

Oracle函数是用于执行特定计算或操作并返回值的命名PL/SQL块。通过使用语句可以创建函数,并通过多种方式进行调用。当不再需要某个函数时,可以使用语句将其删除。

2024-06-14 08:45:00 229

原创 Oracle数据库之加锁的方法(十六)

Oracle提供了丰富的加锁机制来满足不同的并发控制需求。在选择加锁方法时,需要根据具体的应用场景和数据访问模式来权衡并发性和数据一致性之间的平衡。同时,也需要注意避免死锁和长时间持有锁导致的性能问题。

2024-06-13 09:07:38 285

原创 python 使⽤API接⼝抓取数据

Python代码: 以下是⼀个简单的⽰例,展⽰如何使⽤Python的 requests 库从⼀个公开的API接⼝抓取数据,并处理JSON格式的响应。在这个⽰例中,将使⽤OpenWeatherMap的API来获取特定城市的当前天⽓数据。如果请求成功(即状态码为200),将响应内容(即 response.json() )解析为Python字典, 并提取需要的数据,例如温度和天⽓描述,最后打印这些数据。使⽤API接⼝抓取数据时,重要的是要阅读并遵守API提供⽅的使⽤条款,包括请求频率的限制、数据使⽤政策等。

2024-05-30 09:00:00 153

原创 Python实现多线程下载器

在实际应⽤中,可能需要处理更复杂的情 况,⽐如需要认证的下载、处理重定向等。此外,虽然多线程可以提⾼下载效率,但过多的线程可能会导致⽹络拥堵或触发服务器的速率限制,因此需要合理设置并发线程的数量。• 对于 urls 列表中的每个URL,脚本创建⼀个新的 Thread 对象,并将 download_file 函数及其URL作为参数传递给该线程。Python代码: 使⽤ requests 库来下载数据,并使⽤ threading 库来并⾏处理多个下载任务。这个函数还会打印出⼀个消息,表⽰⽂件已经下载完毕。

2024-05-29 09:00:00 147

原创 Python 登录表单处理

为了保持登录状态,需要处理和保存会话中的 cookies。Python的 requests 库可以⽅便地处理这些任务,特别是它的 Session 对象,可以⾃动处理cookies,使得后续请求保持登录状态。假设正在尝试登录⼀个⽰例⽹站 (http://example.com/login),该⽹站的登录表单需要两个字段: username 和 password。Session 对象会⾃动保存登录后的cookies,这意味着可以使⽤同⼀个 Session 对象发送后续请求,⽽⽆需⼿动处理cookies。

2024-05-28 16:00:00 237

原创 Oracle数据库之锁(十五)

Oracle的锁机制是用于控制对共享资源的并发访问,以确保数据库的一致性和完整性。

2024-05-28 14:23:42 449

原创 Oracle数据库之事务(十四)

事务:在数据库中,事务是由一个或多个SQL语句组成的逻辑单元,这些语句共同完成一组相关的行为。事务通过其机制确保这一组SQL语句所作的操作要么全部成功执行,要么全部不执行。

2024-05-28 11:49:33 303

原创 Oracle数据库之系统事件触发器、替代触发器、DML触发器(十三)

当试图对不能直接进行DML操作的视图进行修改时,替代触发器可以定义一组操作来替代原本不允许的DML操作。然而,需要注意的是,Oracle数据库中的触发器通常更常用于DML(数据操纵语言)事件,如INSERT、UPDATE和DELETE,而不是系统事件。在这个语法中,{BEFORE | AFTER}指定触发器是在对表的操作发生之前还是之后触发,而[FOR EACH ROW]表示是行级触发器。因此,在编写或修改触发器时,请参考你正在使用的Oracle数据库版本的官方文档以获取最准确的信息。

2024-05-21 16:47:52 906

原创 图书推荐系统数据准备

为了准备构建图书推荐系统的数据,可以编写⼀个爬⾍脚本来从在线图书商店或图书评价⽹站抓取图书的详细信息和⽤⼾评价。在这个⽰例中,展⽰如何使⽤Python的 requests 和BeautifulSoup 库抓取图书信息。• 确保遵守⽬标⽹站的 robots.txt ⽂件规定和版权政策,不要对⽹站造成不必要的负担。• 在实际应⽤中,需要根据⽬标⽹站的实际HTML结构调整选择器。• 对于⼤规模数据抓取,考虑使⽤分布式爬⾍并合理安排抓取频率。

2024-05-17 10:39:56 213

原创 Oracle数据库之管理触发器(十二)

Oracle触发器是数据库中的一种对象,它在特定事件发生时自动执行或触发一段PL/SQL代码。这些事件通常包括对表的DML(数据操作语言)操作,如INSERT、UPDATE、DELETE,以及DDL(数据定义语言)操作,如CREATE、ALTER、DROP等,还包括数据库系统事件和用户事件。创建触发器:你可以使用CREATE TRIGGER语句来创建一个触发器。

2024-05-16 16:39:03 763

原创 Oracle数据库之触发器(十一)

触发器是一种特殊的存储过程,它与表相关联,可以在特定的事件发生时自动触发执行。这些事件通常包括数据的插入、更新或删除等操作。数据完整性保护:可以在数据插入、更新、删除等操作前后进行校验和处理,确保数据的完整性和一致性。自动化数据操作:可以实现一些自动化的数据操作,比如在插入数据时自动计算某个字段的值,或者在某个字段更新时自动更新其他相关字段的值。数据审计和监控:可以记录数据的变化历史,实现数据审计和监控功能,方便跟踪和分析数据的变化过程。

2024-05-15 13:56:45 541

原创 电商⽹站价格追踪器

发送电⼦邮件通知可以使⽤Python的 smtplib 库实现,但请确保在发送通知时不要泄露任何敏感信息,并遵守相关的隐私保护法规。要创建⼀个电商⽹站价格追踪器,可以使⽤Python的 requests 和 BeautifulSoup 库来抓取产品⻚⾯的价格信息,并使⽤ schedule 库定期执⾏价格检查。这个脚本⾸先定义了⼀个 check_price 函数,该函数⽤于抓取产品⻚⾯,解析出产品的当前价格,并与上⼀次记录的价格进⾏⽐较。在实际应⽤中,需要根据⽬标⻚⾯的实际HTML结构来调整选择器。

2024-05-15 10:24:18 176

原创 Oracle数据库之带参数的存储过程(十)

在 Oracle 数据库中,创建带参数的存储过程是很常见的。以下是一个简单的示例,说明如何创建一个接受参数的存储过程,并在过程中执行一些操作。示例:创建一个接受参数的存储过程假设我们有一个名为employees的表,它有一个salary列,我们想要创建一个存储过程来更新某个员工的薪水。) ISBEGIN-- 更新薪水-- 提交事务(如果需要的话)COMMIT;-- 可以添加异常处理部分EXCEPTIONDBMS_OUTPUT.PUT_LINE('没有找到对应的员工ID。');

2024-05-15 09:16:26 1176

原创 Oracle数据库之存储过程(九)

Oracle存储过程(Stored Procedure)是一组为了完成特定功能的SQL语句集,经编译后存储在数据库中。用户通过指定存储过程的名字并给出参数(如果该存储过程带有参数)来执行它。定义存储过程是由流控制和SQL语句书写的过程,经编译和优化后存储在数据库服务器中。在Oracle中,若干个有联系的过程可以组合在一起构成程序包。优点提高性能:由于存储过程在数据库服务器上执行,可以减少网络流量和数据传输时间。此外,由于编译一次并多次执行,因此还可以提高应用程序的响应速度。保护数据。

2024-05-14 17:00:00 539

原创 网页变化监测器

在这个⽰例中,将使⽤Python的 requests 库来抓取⽹⻚, hashlib 来⽐较内容的变化,并使⽤schedule 库来定时执⾏任务。分析:创建⼀个⽹⻚变化监测器涉及到⼏个关键步骤:⾸先,定期抓取⽬标⽹⻚的内容;最后,如果检测到变化,通过电⼦邮件或其他⽅式通知⽤⼾。需求:编写⼀个脚本定期检查⽹⻚内容的变化(如价格变化、新闻更新等),并通过电⼦邮件或其他⽅式通知⽤⼾,了解定时任务和通知实现机制。• check_for_changes 函数检查当前⽹⻚内容的哈希值是否与之前保存的哈希值相同。

2024-05-14 16:00:00 169

原创 简单的网页搜索引擎

分析:要创建⼀个简单的⽹⻚搜索引擎,需要完成⼏个步骤:⾸先,抓取多个⽹⻚的内容;• 使⽤ defaultdict(set) 创建⼀个索引,其中键是单词,值是包含该单词的URL集合。其次,需要从抓取到的内容中提取⽂本,并创建⼀个简单的索引。在这个例⼦中,索引将是⼀个字典,键是单词,值是包含该单词的⽹⻚列表。需求:抓取多个⽹⻚的内容,创建⼀个简单的索引,然后实现⼀个⼩型的搜索功能,以理解搜索技术的基本原理。最后,将实现⼀个简单的搜索功能,允许⽤⼾输⼊⼀个查询词,然后返回包含该词的所有⽹⻚。

2024-05-14 11:40:32 547

原创 Oracle数据库之PL/SQL基本语法(八)

PL/SQL 是 Oracle 数据库中使用的过程化 SQL 语言扩展,它允许你在 SQL 语句中嵌入控制结构、变量声明、异常处理等。用于在 PL/SQL 块中输出调试信息。为了看到这些信息,你需要在 SQL*Plus 或其他客户端中启用它(例如,使用。PL/SQL 代码通常被组织在块(block)中。一个块包含三个部分:声明部分、执行部分和异常处理部分。包是 PL/SQL 中一种将逻辑、变量、常量、游标、类型、子程序、异常等组合在一起的数据库对象。在 PL/SQL 中,你可以在。部分来处理运行时错误。

2024-05-14 11:02:08 128

原创 论坛帖子数据抓取

脚本假设每个帖⼦的信息都包含在⼀个类名为 post-item 的 <div> 标签中,帖⼦标题、作者和发布⽇期分别包含在该 <div> 标签的不同⼦标签中(这⾥使⽤ <h3> 标签作为帖⼦标题的容器,<span> 标签作为作者和发布⽇期的容器)。脚本通过遍历所有这样的 <div> 标签,提取每个帖⼦的标题、作者和发布⽇期,并将这些信息打印出来。要抓取论坛帖⼦数据,包括帖⼦标题、作者和发布⽇期,可以使⽤ requests 库获取⽹⻚内容,再⽤ BeautifulSoup 解析HTML。

2024-05-13 16:00:00 119

原创 Oracle数据库之集合运算(七)

Oracle 中的集合运算是指将两个或多个查询的结果集组合成一个结果集的操作。这些集合运算包括 UNION、UNION ALL、INTERSECT 和 MINUS。注意:使用 UNION ALL 通常比 UNION 更快,因为它不需要去除重复的记录。希望这些信息对你有所帮助!

2024-05-13 14:15:00 419

原创 新闻标题抓取

要从新闻⽹站⾸⻚抓取最新的新闻标题和链接,可以使⽤ requests 库获取⽹⻚内容,然后利⽤ BeautifulSoup 解析HTML,提取新闻标题和相应的链接。由于各新闻⽹站的⻚⾯结构差异较⼤,需要检查想抓取的⽹站的HTML结构,并相应地调整上述代码中的选择器(例如, find_all ⽅法中的标签名和类名)。由于新闻⽹站的结构可能不断变化,且每个⽹站的结构不同,这⾥提供的代码仅供学习和参考,可能需要根据⽬标⽹站的实际HTML结构进⾏相应调整。

2024-05-13 10:04:19 155

原创 Oracle数据库之子查询(六)

Oracle子查询是一个SELECT语句,它是嵌入在另一个SELECT语句中的子句。子查询可以在主查询之前执行,并将结果提供给主查询使用。通过使用子查询,你可以将一个查询嵌套到另一个查询中,以便进行更复杂的查询操作。用于查询:子查询(内查询)在主查询之前执行完成,并将结果返回给主查询(外查询)使用。子查询可以返回单行数据,也可以返回多行数据。如果返回多行数据,可以使用多行比较操作符(如IN、ALL、ANY)来处理。创建表:你可以使用子查询的结果来创建一个新表。

2024-05-13 09:32:24 725

原创 Oracle数据库之多表查询、层次查询(五)

Oracle 的连接条件的类型等值连接不等值连接外连接自连接。

2024-05-12 16:00:00 893

原创 电影评分和评论抓取

要从电影评分⽹站抓取电影的评分和⽤⼾评论,可以考虑使⽤BeautifulSoup和requests库解析⽹⻚内容。不过,实际操作中,针对特定⽹站的结构可能会有所不同,这⾥将给出⼀个基础的⽰例, 演⽰如何从⼀个假设的⽹站中抓取信息。• comments = soup.find_all('div', class_='user-comment') 假设⽤于查找所有包含⽤⼾评论的 元素,每个元素的类名为 user-comment。在这个⽰例中,⾸先向假设的电影⽹站发送了⼀个GET请求。

2024-05-12 14:00:00 229

原创 小说文本爬取

要从电影评分⽹站抓取电影的评分和⽤⼾评论,可以考虑使⽤BeautifulSoup和requests库解析⽹⻚内容。不过,实际操作中,针对特定⽹站的结构可能会有所不同,这⾥将给出⼀个基础的⽰例,演⽰如何从⼀个假设的⽹站中抓取信息。• comments = soup.find_all('div', class_='user-comment') 假设⽤于查找所有包含⽤⼾评论的 <div> 元素,每个元素的类名为 user-comment。在这个⽰例中,⾸先向假设的电影⽹站发送了⼀个GET请求。

2024-05-12 08:00:00 136

原创 Oracle数据库之条件查询、模糊查询和排序(四)

这些只是 Oracle 条件查询的一些基本示例。你可以根据实际需求组合和扩展这些条件。Oracle 中的条件查询是通过在 SQL 查询语句中使用。子句允许你指定一个或多个条件,以过滤出满足这些条件的记录。是一个通配符,代表零个、一个或多个字符。你可以使用各种比较运算符,如。注意:在 Oracle 中,大于 5000 并且。大于 5000 或者。

2024-05-12 07:30:00 755

原创 Oracle数据库之基本查询详解(三)

结构化查询语言(Structured Query Language)简称SQL,结构化查询语言是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统:同时也是数据库脚本文件的扩展名。结构化查询语言是高级的非过程化编程语言,允许用户在高层数据结构上工作。它不要求用户指定对数据的存取方法,也不需要用户了解具体的数据存放方式,所以具有完全不同底层结构的不同数据库系统,可以实用相同的结构化查询语言作为数据输入与管理的接口。结构化查询语言可以嵌套,这使得它具有极大的灵活性和强大的功能。

2024-05-11 16:05:29 682

原创 Oracle数据库之 常用数据库对象(二)

视图是一个虚表.视图建立在已有表的基础上,视图赖以建立的这些表称为基表.向视图提供数据内容的语句为select语句,可以将视图理解为存储起来的select语句.视图向用户提供基表数据的另一种表现形式.最大的优点就是简化复杂的查询。

2024-05-11 14:27:59 670

原创 Oracle数据库之 体系结构(一)

数据库的数据是存储在表空间中的,真正是在某一个或者多个数据文件中。而一个表空间可以由一个或多个数据文件组成,一个数据文件之只能属于一个表空间。一旦数据文件被加入到某个表空间后,就不能删除这个文件,如果要删除某个数据文件,只能删除其所属的表空间才行。由于Oracle的数据库不是普通的概念,Oracle是有由户和表空间对数据进行管理和存放的。但是表不是由表空间去查询的,而是由用户去查的。一个数据库可以有n个实例。表的数据,是由用户放入某一个表空间的,而这个表空间会随机把这些表数据放到一个或者多个数据文件中。

2024-05-11 14:06:13 304

原创 关于oracle误删数据如何进行恢复

oracle数据库有类似回收站的功能,所以平时如果误删数据是有很大可能可以进行恢复的,前提是没有使用 truncate 方式来删除表以及没有使用 purge(drop table table_name purge)查看被删除的数据是否存在,如果存在则可以进行数据恢复,如果没有可以把时间向前提一下。首先通过历史命令目录查询执行删除数据语句的时间 可以通过快捷键(ctrl+e)或者v$sql表来查看具体的详细信息 确认时间之后可以通过执行。执行该条语句就可以对表进行恢复了。

2024-05-11 10:13:41 394

原创 oracle 行转列及列转行

说明:pivot(聚合函数 for 列名 in(类型)),其中 in(‘’) 中可以指定别名,in中还可以指定子查询,比如 select distinct ranking from temp。说明:decode的用法:decode(条件,值1,返回值1,值2,返回值2,...值n,返回值n,缺省值)说明:unpivot(自定义列名/*列的值*/ for 自定义列名/*列名*/ in(列名))

2024-05-11 10:11:54 281

原创 股票数据爬取

job 函数定义了⼀个定期执⾏的任务,调⽤ fetch_stock_price 函数来获取股票价格。然后,通过⼀个⽆限循环调⽤ schedule.run_pending() 来持续执⾏已计划的任务。使⽤yfinance.Ticker 来获取股票的数据,然后通过 stock.history(period='1d') 获取今天的数据,并提取收盘价。以下是⼀个基础的⽰例,展⽰如何使⽤ yfinance 库(⼀个⽅便获取Yahoo Finance数据的库)定期获取特定股票的最新价格,并打印输出。

2024-05-11 09:00:00 143

原创 天气数据抓取

这个脚本⾸先构建⼀个包含城市名、API密钥和温度单位(摄⽒度)的参数字典,然后使⽤requests.get ⽅法发送⼀个GET请求到OpenWeatherMap的API端点。分析:要从天⽓⽹站抓取当前天⽓数据并解析,通常需要使⽤API提供的接⼝,因为这是获取实时数据的最有效⽅式。需要在OpenWeatherMap上注册并获取⼀个API密钥(也称为API key或AppID)。请确保将 your_api_key_here 替换为实际API密钥,并根据需要将 CITY 变量的值替换为想查询的城市名。

2024-05-10 19:00:00 128

原创 CSV数据提取

这个⽰例中,脚本⾸先发送⼀个HTTP GET请求到指定的URL以获取CSV⽂件的内容。要从在线CSV⽂件中提取数据并将其保存到本地,可以使⽤ requests 库来获取CSV⽂件的内容,然后使⽤Python的内置 csv 模块来处理这些数据。这个脚本CSV⽂件是以UTF-8编码的。如果CSV使⽤了不同的编码,需要在调⽤ decode ⽅法时指定正确的编码⽅式。需要替换 url 变量的值为要下载的CSV⽂件的实际URL,以及根据需要修改本地保存路径local_csv_path。

2024-05-10 18:30:00 200

Python之大麦网自动抢票实现自动登陆

知识点: 面向对象编程 selenium 操作浏览器 pickle 保存和读取Cookie实现免登陆 time 做延时操作 os 创建文件,判断文件是否存在https://mp.weixin.qq.com/s?__biz=MzU1NjY4OTUxMQ==&mid=2247489818&idx=1&sn=ff265788e5c8049457b0e02f75b68fef&chksm=fbc06812ccb7e10480e3f38b48ead8ee0bc8d4fa9143d58f40c231dcd20662bb5eadaf363310&scene=132&exptype=timeline_recommend_article_extendread_samebiz&poc_token=HNu3e2WjD5G5R5oYtuvD0_5oHnZOKAc-4VIvCYuq 第三方库: selenium >>> pip install selenium 开发环境: 版 本:anaconda(python3.8.8) 编辑器:pycharm

2024-05-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除