工作室的第一个实验:
我需要完成的任务是使用 python 完成简单的爬虫项目:
网站:https://bbs.pku.edu.cn/v2/thread.php?bid=690
- 爬取每一个帖子内的标题、心理咨询师的回复(没有回复的只爬取标题)
2、爬取前 20 页,目前是257页,有能力的同学请爬取所有页面。
3、对提取出的数据进行整理,数据库或者文件等。
完全0基础,除了大一学的那可怜的简单的C语言和数据结构外,真的是一无所知,好在坚持就是胜利,不懂就放弃和不懂就学,幸运的是我选择了后者。
既然是用python完成实验,第一步必须得看得懂python…而最简单的方法就是向前辈们问一些实用的学习资料,有助于提高效率。这里推荐一个网站http://www.runoob.com/【菜鸟教程】。拿到这个网址后,我花了整整一个晚上,看完了有关python的所有内容,虽然有点烧脑,但至少让我在之后的学习中,能读懂python了。
看完后第一感觉,啊,看完了,怎么写…从一脸到百脸懵逼。
只能继续找资料。帖吧,论坛,到处搜吧。不得不说CSDN真的帮我省了很多事。语言关过后,我选择直接把关键点定到爬虫。问题在于大多帖子并不适合初学者阅读,淘了大半天,找到了一个记录作者第一次做爬虫的帖子:
https://blog.csdn.net/Yvonne_Lu7/article/details/81097787 感谢博主的分享,让我少走了许多弯路。
基本是我需要用的模板了.ok模板有了,那就开始搭环境。天真的我以为和C语言一样,一个VS就可以搞定,后来…整整一天都在不断的搭环境中,编译器其实很好解决,最麻烦的是在不断的报错中,引入需要的库。
Python最新源码,二进制文档,新闻资讯等可以在Python的官网查看到:
Python官网:https://www.python.org/