爬虫
文章平均质量分 92
边学习边更新
小馒头学python
这个作者很懒,什么都没留下…
展开
-
爬虫不会写?找ChatGPT不就完了,实战爬取某手办网~~~
合理的利用Ai可以极大的提高我们的生产效率,但你也得会点,在自己有点基础的前提去使用会事半功倍。挑战与创造都是很痛苦的,但是很充实。原创 2023-12-12 14:10:05 · 1334 阅读 · 25 评论 -
探索自动化测试工具:Selenium的威力与应用
Selenium是一个用于自动化浏览器操作的工具套件,最初是为Web应用程序测试而创建的。它支持多种编程语言,包括Java、Python、C#等,因此适用于各种开发环境。Selenium的主要目标是模拟用户在浏览器中的操作,例如点击链接、填写表单、提交数据等,以验证Web应用程序的功能是否正常工作。原创 2023-09-27 15:50:53 · 703 阅读 · 2 评论 -
Python实战:用多线程和多进程打造高效爬虫
通过使用多线程和多进程,我们可以显著提高网络爬虫的效率,更快地获取大量数据。然而,要小心线程安全问题和进程管理的开销。挑战与创造都是很痛苦的,但是很充实。原创 2023-09-21 09:37:43 · 5439 阅读 · 20 评论 -
爬虫数据存储:技术、策略与实践(一)
它支持.xls和.xlsx格式的文件,并可以提取文件中的数据、格式和元数据等信息。xlrd提供了许多功能,包括选择特定的工作表、获取单元格的值和样式、遍历工作表中的数据等。它支持.xls格式的文件,并允许用户创建新的工作表、添加数据、设置单元格样式等。但是我们平时创建一个Excel文件的时候下面会有表格(sheet),所以我们不光要创建Excel对象,而且需要创建若干sheet表格,具体代码如下。这里我们将某博的热搜作为实战对象,首先我们需要准备一个爬取此网站前期的准备。创建文件的代码较为简单,如下。原创 2023-09-15 07:00:00 · 255 阅读 · 13 评论 -
十一、正则表达式详解:掌握强大的文本处理工具(三)
综上所述,贪婪模式下的网络爬虫是一种快速获取数据的利器。它能够以惊人的速度遍历网络,提取大量有用信息,为各种应用场景提供支持。然而,在使用贪婪模式爬虫时,我们也需要保持适度和合规,在尊重他人权益和保护网络环境的前提下,充分发挥其优势,推动信息时代的进步。总之,非贪婪模式下的网络爬虫是一种追求数据精确性和准确性的重要工具。它通过智能算法和策略,有选择性地爬取目标网页,提供高质量、精准的数据支持。在各个领域的应用中,非贪婪模式爬虫发挥着重要的作用,帮助企业和研究人员快速获取可靠的数据,从而推动商业和科学的发展。原创 2023-07-19 14:00:21 · 192 阅读 · 2 评论 -
十、正则表达式详解:掌握强大的文本处理工具(二)
本节介绍了多字符匹配,其中包括星号、加号等;匹配规则的代替,例如\d可以使用[0-9]代替使用;以及特殊的匹配。下节介绍贪婪模式与非贪婪模式,曾有大佬说明,不了解贪婪模式和非贪婪模式,就无法进行爬虫如果没看过正则表达式详解:掌握强大的文本处理工具(二)!!挑战与创造都是很痛苦的,但是很充实。原创 2023-07-19 09:30:13 · 437 阅读 · 2 评论 -
九、正则表达式详解:掌握强大的文本处理工具(一)
是一种强大的文本处理工具,常用于搜索、匹配和替换操作。:[]内的内容都可以匹配、[]内多个匹配内容时,取“或”,只要匹配对象中年含有其中一个内容就匹配、从起始位置开始。:匹配小写的a-z,大写的A-Z,数字和下划线,从起始位置开始,除去上述的都无法匹配(如中文,中文符号等)正则表达式在数据处理、文本搜索和日志分析等领域发挥着重要作用,掌握它将使你的工作更高效、准确。这些操作符的灵活运用,可以实现更复杂的字符串匹配和替换需求。:匹配空白字符、从起始位置开始、\n、\t、\r、空格。原创 2023-07-17 11:36:11 · 291 阅读 · 2 评论 -
八、使用BeautifulSoup4解析HTML实战(二)
鼠标右键检查后,我们经过分析可以得出,我们想要获得的数据在一个class="hpoi-detail-grid-right"的div标签中,另外在此div下包含另外两个div,第一个div中的a标签含有我们想要的手办名称,第二个div标签中的span标签含有我们想要的手办厂商等。在上面的示例中,使用XPath表达式//div[@id=“content”]/ul/li选择了id为"content"的div节点下的ul节点下的所有li节点,并打印出它们的文本内容。原创 2023-07-14 08:43:23 · 390 阅读 · 2 评论 -
七、使用BeautifulSoup4解析HTML实战(一)
完成了这次的实战可能有的人对这个方法还是有些不太了解,接下来,针对此方法,我来详细介绍一下在BeautifulSoup库(通常作为bs4导入)中,find_all是一个常用的方法,用于在HTML或XML文档中查找符合特定条件的所有元素。name:要查找的元素标签名称或标签列表。可以使用字符串、正则表达式或函数来匹配标签名。attrs:要查找的元素的属性值(可选)。可以使用字典或关键字参数来指定多个属性和对应的值。recursive:指定是否递归查找子孙节点,默认为 True。原创 2023-07-13 09:52:40 · 127 阅读 · 3 评论 -
六、介绍BeautifulSoup库:Python网络爬虫利器
BeautifulSoup库是由Leonard Richardson开发的一款Python库,用于解析和遍历HTML以及XML文档。该库提供了一种Pythonic的方式来方便地导航、搜索和修改解析树。通过使用BeautifulSoup,我们能够轻松地从HTML页面中提取所需的数据,无论是简单的文本还是复杂的结构化数据。原创 2023-07-08 19:55:27 · 240 阅读 · 1 评论 -
五、XPath实战:快速定位网页元素
右击鼠标点击检查,我们就会看到具体的URL,为了测试Xpath语法,我们需要打开Xpath插件(本文结尾我会奉上下载链接)本节我们来爬取豆瓣电影,在实战开始前,我们需要搞懂爬取的流程,在清楚爬取的步骤后,我们方可事半功倍。这里会有人好奇为什么后面需要切一下,原因如下,前面有一些无用的数据,需要清除。不难分析此URL可以从,总的h2标签下的,a标签中的,href属性下手。接下来需要获取前5页的URL,下面我们可以一起来看看它们之间的规律。做完先前的工作,这里可以说是核心的步骤了,获取真正有用的数据。原创 2023-07-07 17:18:00 · 1192 阅读 · 3 评论 -
四、探索Xpath:解析Web页面的利器
Xpath(XML Path Language)是一种用于在XML文档中定位元素的语言。它通过一系列路径表达式来指定XML文档中的节点,并提供了丰富的函数和操作符来筛选和匹配所需的元素。Xpath凭借其简洁、灵活的语法成为Web页面解析的首选工具。原创 2023-07-01 19:59:12 · 198 阅读 · 0 评论 -
三、get请求和post请求
在HTTP1.1中,新增了五种请求方法:OPTINOS,PUT,DELETE,TRACE和CONNECT方法。最后一步就是打包成exe文件,这里我们找到py文件的所在目录,按住shift再右键进入Powershell。接下来实现具体的步骤,这里用到了三个库分别是,tkinter、requests、time。在HTTP1.0中,定义了三种请求方法:GET,POST和HEAD方法。post实战我们通过百度翻译进行演示,首先要明确数据的所在。会发现里面有一个exe文件,这就是我们想要的结果了。原创 2023-06-27 19:46:33 · 459 阅读 · 1 评论 -
二、requests库的简单使用
requests库是一个用于向网站发送HTTP请求的Python库,它包含了很多方法,以下是其中一些常用的方法。原创 2023-06-25 18:45:45 · 118 阅读 · 0 评论 -
一、初识爬虫
爬虫技术,也称为网络蜘蛛、网络爬虫或网络机器人,是一种程序或脚本,通过自动请求互联网上的页面,并抓取相关数据信息。爬虫技术在搜索引擎、数据挖掘、统计分析、网站管理等领域得到了广泛应用。基于Python的爬虫框架,如Scrapy、BeautifulSoup、Requests等;基于Java的爬虫框架,如Jsoup、WebMagic等;基于Node.js的爬虫框架,如Puppeteer、Cheerio等;基于.NET平台的爬虫框架,如HtmlAgilityPack等。搜索引擎信息收集和索引;原创 2023-06-24 14:51:15 · 1005 阅读 · 1 评论