自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 【实例2—使用RE获取电影天堂内容】

根据实例1的操作流程,实现实例2的操作。但不同的是实例1仅仅是在一个页面中获取的内容,但实例2是先定位到页面某固定的位置,然后获取到内容自身跳转的新的url地址,再从新页面获取到想要的内容。所以相较于实例1,本质上复杂了许多。

2024-07-09 19:48:53 383

原创 【实例1—爬取豆瓣TOP250】

在这个例子中,我们首先打开一个名为’data.csv’的文件,并创建一个写入器对象。注意,每一行的数据都是一个列表,包含要写入CSV文件的值。这个模块提供了两个主要的方法:writerow()和writerows(),它们可以用来写入CSV文件。注:这里需要注意的是csv中有两种写文件的方式,分别是writerow()和writerows()函数。其中,rows是一个包含要写入CSV文件的值的列表的列表(或其他可迭代对象),体验一下核心的代码流程,并在文章的最后将源码给到大家,望大家多多指正。

2024-07-08 20:57:52 989

原创 【数据解析概述—RE】

当我们使用python爬虫拿到了页面的源码之后就不知道该这么办了,有的还沉浸在拿到源码的兴奋中(嘻嘻~呃……这么说话会不会有人打我😱),当然对于像我一样的小白来说,拿到了源码自然很高兴。但是拿到了源码只是爬虫的第一步,真正的核心在于对数据的解析提取。RE(正则表达式)解析;bs4中的Beautifulsoup解析;xpath解析。注:这三种方式可以混合进行使用,完全以结果作导向,只要能拿到想要的数据,用什么方式不重要。另外bs4写起来简单,但性能差,re最快,性能高,不易理解。

2024-07-07 09:51:20 1269

原创 【Requests入门】

requests 是一个常用的 HTTP 请求库,可以方便地向网站发送 HTTP 请求,并获取响应结果。它模块比 urllib 模块更简洁。每次调用 requests 请求之后,会返回一个 response 对象,该对象包含了具体的响应信息,如状态码、响应头、响应内容等。

2024-07-05 16:52:12 789 3

原创 【HTTP协议】

设计 HTTP 最初的目的是为了提供一种发布和接收 HTML 页面的方法,通过 HTTP 或者 HTTPS 协议请求的资源由统一资源标识符(Uniform Resource Identifiers,URI)来标识。HTTP 本身是不安全的,因为传输的数据未经加密,可能会被窃听或篡改。HTTP 是万维网(WWW)的数据通信的基础,设计目的是确保客户端与服务器之间的通信,是互联网上最常用的协议之一。HTTP 有多个版本,目前广泛使用的是 HTTP/1.1 和 HTTP/2,以及正在逐步推广的 HTTP/3。

2024-07-04 16:41:10 1082

原创 【爬虫简介】

网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟浏览器发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。原则上,只要是浏览器(客户端)能做的事情,爬虫都能够做。

2024-07-03 21:08:11 665

【实例2-使用RE获取电影天堂】

爬取电影天堂内容,体验核心代码

2024-07-09

【实例1-获取豆瓣TOP250】

爬取豆瓣TOP250电影,体验爬虫核心代码

2024-07-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除