我的python学习之路

一直想学一个脚本语言,还总是在知乎上看到python,就去学了一下python。

因为有语言基础,花了几个小时时间大概看了一下python的一些语法

推荐网站 python2.7学习 廖学锋

然后就尝试去做爬虫,在此,非常推荐一位叫崔庆才的大神写的爬虫学习

推荐网站 python爬虫学习

做爬虫时候,我推荐使用FireFox浏览器的网络工具抓包,分析源码,还能看网站的js等处理,很好用


看完他的几篇文章之后,如果都是自己动手去做过的话,相信对爬虫已经有一定了解了

这时候,就可以试试自己去实践爬自己想爬的东西了


但是,我在此建议,不要一上来就去爬呢些大公司的网站,因为他们的防爬做得很严谨,所以一开始你可能很难分析出来其中传递的数据的来源

如果一开始困难重重,你也就很容易产生挫败感


我首先是模拟登录了知乎,根据问题编号,爬下来这个问题的所有回答(仅限于文字),在处理这个问题时,你会发现一个页面只会显示20个问题,当你点击更多时候,就会再次向服务器发送一次数据,通过分析这些数据,就可以把这个问题的回答爬下来了(我会在之后写一篇文章,分析知乎的模拟登录流程,和抓取问题答案的流程,阐述一下简单的爬虫思维


之后我又试着模拟登录了我们学校的教务网站(kingsoft系统),比知乎稍微难一些,密码有加密,还必须输入验证码(知乎我每次登录都没让我输过,所以我的知乎爬虫程序目前是不含验证码处理的,如果有人遇到了,请留言,我会阐述一下验证码的抓取思路)模拟登录成功后,我成功抓取了课表和成绩,在抓成绩时候,我还遇到了一个小小的波折,因为我们学校的教务系统有两个端口7001和默认的80,应该是不同一服务器,我在抓取过程中,因为不是同一天登录抓取的,第二天一直登录都是80端口,而我没有发现。所以导致我登录系统用的7001端口,而去爬成绩却post向80端口,导致一直返回登录页面,在多方询问无果,幸好得到一位好人的帮助后,才发现了问题。


爬下来教务系统的各种信息后,我已经对自己的爬虫思路很有自信了,这时候我同学让我帮忙爬一下全国所有高中的信息(按省市区县分级) 在爬这个信息时候,我找了很多网站,第一次爬下来之后才发现他的信息有误,第二个网站,模拟登录已经写好了之后,才发现这个网站高中小学初中信息混淆在了一起,所以大家在爬数据前,一定好好看看网站提供的数据是不是真的符合你的要求。最后发现了一个网站,又遇到了一个新的问题,返回的页面是乱码,也是搜索了好久,才解决掉这个问题(之后也要开一篇总结一下爬虫中遇到的问题)最终帮同学爬下来了她想要的信息,并且帮她处理成为代码格式,直接复制到她的网站代码中就可以用。很开心,第一次感觉到了程序可以代替人做批量的事情!


我会逐渐记录自己在python之路的成长,同时也会更新一些自己学习中遇到的问题及解决,还有一些源码,如果有python爬虫方面的问题,可以留言给我,大家一起探究~

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值