- 博客(5)
- 收藏
- 关注
原创 Python爬虫—requests模块爬取豆瓣电影top250-3
所以易知需要通过改变 start= 对应的数据(0、25、50、75....225)来进行翻页。我们可以使用循环来进行翻页爬取,保存。电影的名字在'span',"class": "title"的位置。可知,电影是要翻页的,每一页只有25个电影,一共10页。我们需要对爬取页面信息要进行处理,所以我们需要bs4的包,和之前一样下载。我们将其复制下来,找一个json在线解析的网站,复制进去,可以发现我们得到的结果。我们来写一个进行处理的,仅爬取豆瓣排行榜前250的电影,并保存下来。
2024-04-23 11:36:40
658
原创 Python爬虫—requests模块爬取网页-2
我们再点击网络(network),可以随便找一个,点击进去,在标头里最下面有一个User-Agent,我们复制下来,这个就是身份标识。在这里,运行之后,网页的代码数据你会发现是可以保存下来的,但是保存的html文件却无法进行打开网页源码,这里是涉及了一个反爬机制。这里,采用的是动态的翻译,在命令窗口可以进行输入,然后进行翻译,将你需要的内容进行打印和保存。这两个一个是动态,一个是固定的,区别不大,主要的区别在于使用了UA伪装。其网址如下,至于台湾省后面的可以去掉,是无用的代码,一般是广告之类的。
2024-04-21 19:45:13
918
1
原创 Python爬虫—requests模块爬取网页-1
requests模块是python中原生的一款基于网络请求的模块,功能非常的强大,功能非常强大,简单便捷,效率极高。
2024-04-21 16:55:59
228
1
原创 数据结构实训(Java实验一 线性表-顺序表的基本操作)
定义顺序表类——顺序表类SqList,在SqList基础上实现基于顺序表的的插入、删除、查找等基本操作,为了便于查看结果,设计一个输出函数依次输出顺序表的元素。
2023-10-18 20:42:07
977
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人