最开始我接触爬虫是在去年年末的时候,因为发现了一个非公开网站的小瑕疵,只需要改变地址栏的url中的id值就可以查看其他人私有的文章,原则来说一个严谨的网站不会犯这样的错误,当时也是学了java语言,我去问我的讲师,也从讲师那里得知了爬虫这项技术,并且讲师也鼓励我放手去做,之后业余时间在网上疯狂的查找相关技术去学习,不断的去练习.
从获取全部源码到可以筛选想要的信息.
从单一的获取文字信息到下载图片信息.
从IO保存到本地到用数据库保存.
从简单的静态网站到较为复杂的动态网站.
中间不断的完善编码形式.
了解网站内部运行模式.
用爬虫做更多的事.
好了,故事内容就讲到这里,之后陆续我会将我写的东西拿出来与大家分享.