python爬虫
文章平均质量分 94
忘忧记
这个作者很懒,什么都没留下…
展开
-
爬虫入门urllib 和 request (一)
在开始进行爬虫的知识之前,我们需要明白web网页是怎么工作的?浏览器工具是怎么使用的?反爬虫的手段手段是那些?原创 2024-08-31 09:47:59 · 1625 阅读 · 0 评论 -
xpath语法详解
XPath 是一门在 XML 文档中查找信息的语言。查找所有id属性等于head并且class属性等于s_down的div标签。html_tree = etree.HTML(html字符串)通过在路径表达式中使用“|”运算符,您可以选取若干个路径。谓语用来查找某个特定的节点或者包含某个指定的值的节点。注意: “|”两边必须是完整的xpath路径。查询所有id属性中包以he开头的div标签。查找所有div标签下的直接子节点h1的内容。查询所有id属性中包含he的div标签。etree.HTML()(建议)原创 2024-08-31 00:05:02 · 651 阅读 · 0 评论 -
beautifulsoup的简单使用
我们在写 CSS 时,标签名不加任何修饰,类名前加点,id名前加 #,在这里我们也可以利用类似的方法来筛选元素,用到的方法是 **soup.select(),**返回类型是。如果属性字典中的键值对完全匹配一个标签的属性,则该标签会被返回。组合查找即和写 class 文件时,标签名与类名、id名进行的组合原理是一样的,例如查找 p 标签中,id 等于 link1的内容,二者需要用空格分开。如果一个指定名字的参数不是搜索内置的参数名,搜索时会把该参数当作指定名字tag的属性来搜索,如果包含一个名字为。原创 2024-08-12 23:17:41 · 952 阅读 · 0 评论 -
正则表达式
则表达式是一种强大的文本处理工具,用于搜索、替换、检查或解析特定模式的字符串。正则表达式使用单个字符串来描述、匹配和处理一系列符合某个句法规则的字符串。Python 的 re 模块提供了对正则表达式的全面支持,包括编译正则表达式、执行匹配检查、搜索和替换文本等功能。如下四个方法经常使用match()search()findall()finditer()原创 2024-08-10 22:48:35 · 1464 阅读 · 1 评论 -
配置python的基本环境
Python 是一种广泛使用的高级编程语言,由 Guido van Rossum 在1989年底发明,第一个公开发行版发行于1991年。Python 的设计哲学强调代码的可读性和简洁的语法(尤其是使用空格缩进来区分代码块,而不是使用大括号或关键词)。这使得 Python 成为一种易于学习的语言,同时具备强大的功能,适合快速开发。Python 的名字来源于 Guido van Rossum 喜爱的喜剧团体 Monty Python,与爬行动物没有关系。原创 2024-08-05 22:04:17 · 1051 阅读 · 0 评论 -
python爬虫初识
现在看一下这三者的关系URL统一资源定位符,而URN统一资源名称。**URI(Uniform Resource Identifier,统一资源标识符)**是一个通用的概念,用于唯一标识一个资源。它包括了URL(Uniform Resource Locator,统一资源定位符)和URN(Uniform Resource Name,统一资源名称)。URL不仅标识资源,还提供了资源的位置信息,如协议类型(如HTTPS)、服务器地址、端口号以及资源的路径等。原创 2024-08-01 17:00:14 · 1291 阅读 · 0 评论