第一个爬虫实验总结

本文记录了一个完全0基础的Python爬虫实验过程,从学习Python基础知识,搭建环境,到使用BeautifulSoup解析网页,爬取北京大学论坛指定页面的帖子标题和心理咨询师的回复。在遇到问题时,通过查阅资料和实践,逐步解决了环境配置、网页元素选择、数据提取等挑战。最后,实现了爬取多页内容并保存到文件的功能。
摘要由CSDN通过智能技术生成

工作室的第一个实验:

我需要完成的任务是使用 python 完成简单的爬虫项目:

网站:https://bbs.pku.edu.cn/v2/thread.php?bid=690

  1. 爬取每一个帖子内的标题、心理咨询师的回复(没有回复的只爬取标题)

2、爬取前 20 页,目前是257页,有能力的同学请爬取所有页面。

3、对提取出的数据进行整理,数据库或者文件等。

 

完全0基础,除了大一学的那可怜的简单的C语言和数据结构外,真的是一无所知,好在坚持就是胜利,不懂就放弃和不懂就学,幸运的是我选择了后者。

既然是用python完成实验,第一步必须得看得懂python…而最简单的方法就是向前辈们问一些实用的学习资料,有助于提高效率。这里推荐一个网站http://www.runoob.com/【菜鸟教程】。拿到这个网址后,我花了整整一个晚上,看完了有关python的所有内容,虽然有点烧脑,但至少让我在之后的学习中,能读懂python了。

 

看完后第一感觉,啊,看完了,怎么写…从一脸到百脸懵逼。

只能继续找资料。帖吧,论坛,到处搜吧。不得不说CSDN真的帮我省了很多事。语言关过后,我选择直接把关键点定到爬虫。问题在于大多帖子并不适合初学者阅读,淘了大半天,找到了一个记录作者第一次做爬虫的帖子:

https://blog.csdn.net/Yvonne_Lu7/article/details/81097787    感谢博主的分享,让我少走了许多弯路。

基本是我需要用的模板了.ok模板有了,那就开始搭环境。天真的我以为和C语言一样,一个VS就可以搞定,后来…整整一天都在不断的搭环境中,编译器其实很好解决,最麻烦的是在不断的报错中,引入需要的库。

Python最新源码,二进制文档,新闻资讯等可以在Python的官网查看到:

Python官网:https://www.python.org/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值