一个简单的不用cookie的人人网状态爬取的python爬虫,使用beautifulsoup
昨天晚上闲着无聊翻翻人人,想来过去几年一直用的人人,里面好多喜怒哀乐。正好最近在写爬虫,干脆把它都弄下来留着吧。于是开工。爬取的是我自己的全部已经发过的状态。先是,向所有人一样,百度了一下,有没有现成的解决方案,确实有不少,说要先登录,然后再保留cookie,然后再用什么正则表达式,好是麻烦。然后登录人人,分析它的网页结构,还是挺麻烦的,状态的界面都是用ajax
原创
2015-11-21 14:57:54 ·
2176 阅读 ·
0 评论