我的python学习之路

最新推荐文章于 2024-08-03 19:27:22 发布

JuniorWizard

最新推荐文章于 2024-08-03 19:27:22 发布

阅读量1.8k

点赞数 2

分类专栏： Python 文章标签： python 爬虫网站信息抓取

本文链接：https://blog.csdn.net/MR_D_j/article/details/50966678

版权

Python 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一直想学一个脚本语言，还总是在知乎上看到python，就去学了一下python。

因为有语言基础，花了几个小时时间大概看了一下python的一些语法

推荐网站 python2.7学习廖学锋

然后就尝试去做爬虫，在此，非常推荐一位叫崔庆才的大神写的爬虫学习

推荐网站 python爬虫学习

做爬虫时候，我推荐使用FireFox浏览器的网络工具抓包，分析源码，还能看网站的js等处理，很好用

看完他的几篇文章之后，如果都是自己动手去做过的话，相信对爬虫已经有一定了解了

这时候，就可以试试自己去实践爬自己想爬的东西了

但是，我在此建议，不要一上来就去爬呢些大公司的网站，因为他们的防爬做得很严谨，所以一开始你可能很难分析出来其中传递的数据的来源

如果一开始困难重重，你也就很容易产生挫败感

我首先是模拟登录了知乎，根据问题编号，爬下来这个问题的所有回答(仅限于文字)，在处理这个问题时，你会发现一个页面只会显示20个问题，当你点击更多时候，就会再次向服务器发送一次数据，通过分析这些数据，就可以把这个问题的回答爬下来了(我会在之后写一篇文章，分析知乎的模拟登录流程，和抓取问题答案的流程，阐述一下简单的爬虫思维

之后我又试着模拟登录了我们学校的教务网站(kingsoft系统)，比知乎稍微难一些，密码有加密，还必须输入验证码(知乎我每次登录都没让我输过，所以我的知乎爬虫程序目前是不含验证码处理的，如果有人遇到了，请留言，我会阐述一下验证码的抓取思路）模拟登录成功后，我成功抓取了课表和成绩，在抓成绩时候，我还遇到了一个小小的波折，因为我们学校的教务系统有两个端口7001和默认的80，应该是不同一服务器，我在抓取过程中，因为不是同一天登录抓取的，第二天一直登录都是80端口，而我没有发现。所以导致我登录系统用的7001端口，而去爬成绩却post向80端口，导致一直返回登录页面，在多方询问无果，幸好得到一位好人的帮助后，才发现了问题。

爬下来教务系统的各种信息后，我已经对自己的爬虫思路很有自信了，这时候我同学让我帮忙爬一下全国所有高中的信息(按省市区县分级) 在爬这个信息时候，我找了很多网站，第一次爬下来之后才发现他的信息有误，第二个网站，模拟登录已经写好了之后，才发现这个网站高中小学初中信息混淆在了一起，所以大家在爬数据前，一定好好看看网站提供的数据是不是真的符合你的要求。最后发现了一个网站，又遇到了一个新的问题，返回的页面是乱码，也是搜索了好久，才解决掉这个问题(之后也要开一篇总结一下爬虫中遇到的问题)最终帮同学爬下来了她想要的信息，并且帮她处理成为代码格式，直接复制到她的网站代码中就可以用。很开心，第一次感觉到了程序可以代替人做批量的事情！

我会逐渐记录自己在python之路的成长，同时也会更新一些自己学习中遇到的问题及解决，还有一些源码，如果有python爬虫方面的问题，可以留言给我，大家一起探究~