我的python爬虫笔记
文章平均质量分 71
小小蔷薇~
开启走向人生巅峰之路
展开
-
【实例2—使用RE获取电影天堂内容】
根据实例1的操作流程,实现实例2的操作。但不同的是实例1仅仅是在一个页面中获取的内容,但实例2是先定位到页面某固定的位置,然后获取到内容自身跳转的新的url地址,再从新页面获取到想要的内容。所以相较于实例1,本质上复杂了许多。原创 2024-07-09 19:48:53 · 383 阅读 · 0 评论 -
【实例1—爬取豆瓣TOP250】
在这个例子中,我们首先打开一个名为’data.csv’的文件,并创建一个写入器对象。注意,每一行的数据都是一个列表,包含要写入CSV文件的值。这个模块提供了两个主要的方法:writerow()和writerows(),它们可以用来写入CSV文件。注:这里需要注意的是csv中有两种写文件的方式,分别是writerow()和writerows()函数。其中,rows是一个包含要写入CSV文件的值的列表的列表(或其他可迭代对象),体验一下核心的代码流程,并在文章的最后将源码给到大家,望大家多多指正。原创 2024-07-08 20:57:52 · 989 阅读 · 0 评论 -
【数据解析概述—RE】
当我们使用python爬虫拿到了页面的源码之后就不知道该这么办了,有的还沉浸在拿到源码的兴奋中(嘻嘻~呃……这么说话会不会有人打我😱),当然对于像我一样的小白来说,拿到了源码自然很高兴。但是拿到了源码只是爬虫的第一步,真正的核心在于对数据的解析提取。RE(正则表达式)解析;bs4中的Beautifulsoup解析;xpath解析。注:这三种方式可以混合进行使用,完全以结果作导向,只要能拿到想要的数据,用什么方式不重要。另外bs4写起来简单,但性能差,re最快,性能高,不易理解。原创 2024-07-07 09:51:20 · 1269 阅读 · 0 评论 -
【Requests入门】
requests 是一个常用的 HTTP 请求库,可以方便地向网站发送 HTTP 请求,并获取响应结果。它模块比 urllib 模块更简洁。每次调用 requests 请求之后,会返回一个 response 对象,该对象包含了具体的响应信息,如状态码、响应头、响应内容等。原创 2024-07-05 16:52:12 · 789 阅读 · 3 评论 -
【HTTP协议】
设计 HTTP 最初的目的是为了提供一种发布和接收 HTML 页面的方法,通过 HTTP 或者 HTTPS 协议请求的资源由统一资源标识符(Uniform Resource Identifiers,URI)来标识。HTTP 本身是不安全的,因为传输的数据未经加密,可能会被窃听或篡改。HTTP 是万维网(WWW)的数据通信的基础,设计目的是确保客户端与服务器之间的通信,是互联网上最常用的协议之一。HTTP 有多个版本,目前广泛使用的是 HTTP/1.1 和 HTTP/2,以及正在逐步推广的 HTTP/3。原创 2024-07-04 16:41:10 · 1082 阅读 · 0 评论 -
【爬虫简介】
网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟浏览器发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。原则上,只要是浏览器(客户端)能做的事情,爬虫都能够做。原创 2024-07-03 21:08:11 · 665 阅读 · 0 评论