第一个爬虫实验总结

最新推荐文章于 2023-10-11 17:00:46 发布

Harold24

最新推荐文章于 2023-10-11 17:00:46 发布

阅读量1.3w

点赞数 4

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Harold24/article/details/82563832

版权

本文记录了一个完全0基础的Python爬虫实验过程，从学习Python基础知识，搭建环境，到使用BeautifulSoup解析网页，爬取北京大学论坛指定页面的帖子标题和心理咨询师的回复。在遇到问题时，通过查阅资料和实践，逐步解决了环境配置、网页元素选择、数据提取等挑战。最后，实现了爬取多页内容并保存到文件的功能。

摘要由CSDN通过智能技术生成

工作室的第一个实验：

我需要完成的任务是使用 python 完成简单的爬虫项目：

网站：https://bbs.pku.edu.cn/v2/thread.php?bid=690

爬取每一个帖子内的标题、心理咨询师的回复（没有回复的只爬取标题）

2、爬取前 20 页，目前是257页，有能力的同学请爬取所有页面。

3、对提取出的数据进行整理，数据库或者文件等。

完全0基础，除了大一学的那可怜的简单的C语言和数据结构外，真的是一无所知，好在坚持就是胜利，不懂就放弃和不懂就学，幸运的是我选择了后者。

既然是用python完成实验，第一步必须得看得懂python…而最简单的方法就是向前辈们问一些实用的学习资料，有助于提高效率。这里推荐一个网站http://www.runoob.com/【菜鸟教程】。拿到这个网址后，我花了整整一个晚上，看完了有关python的所有内容，虽然有点烧脑，但至少让我在之后的学习中，能读懂python了。

看完后第一感觉，啊，看完了，怎么写…从一脸到百脸懵逼。

只能继续找资料。帖吧，论坛，到处搜吧。不得不说CSDN真的帮我省了很多事。语言关过后，我选择直接把关键点定到爬虫。问题在于大多帖子并不适合初学者阅读，淘了大半天，找到了一个记录作者第一次做爬虫的帖子：

https://blog.csdn.net/Yvonne_Lu7/article/details/81097787 感谢博主的分享，让我少走了许多弯路。

基本是我需要用的模板了.ok模板有了，那就开始搭环境。天真的我以为和C语言一样，一个VS就可以搞定，后来…整整一天都在不断的搭环境中，编译器其实很好解决，最麻烦的是在不断的报错中，引入需要的库。

Python最新源码，二进制文档，新闻资讯等可以在Python的官网查看到：

Python官网：https://www.python.org/

最低0.47元/天解锁文章

关注

4
点赞
踩
36

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。