感谢主赐予我们时光。
本内容只涉及技术探讨,不作为商业用途。
背景
作为入门级的爬虫,其实不需要了解复杂的正则表达式匹配,高深的网络协议。只需要了解一些基本的python语法和html请求/响应原理就能遨游在网络中抓取你想要的内容。今天就和大家分享一个用python实现爬虫的demo。
这里将豆瓣同城北京地区近期音乐活动作为目标,尝试抓取音乐活动列表29页的演出信息。
https://beijing.douban.com/events/future-music?
当然,这里python版本使用的是3.x,对于2.x的童鞋只需把代码稍作修改便可使用。编辑器使用的是pyCharm,一款优秀的IDE。
在继续往下读之前,你应该知道:1 python的基本语法 2 python类的定义与使用 3 python对网络,文件的基本操作。
为什么说是入门级的?
1 单线程:这里只是使用单线程,相比多线程来说简单好多。
2 静态页面:服务器没有使用Ajax技术动态加载数据,不涉及Ajax请求接口获取json等格式数据。
3 get方式:使用get方式直接获取数据,没用涉及post向服务器发送数据,只是传递了一个pageNum参数。
4 免登陆:部分web页面初始并没有数据可用,需要在用户登录后才会用javascript动态加载。
5 文本格式保存:在获取结果数据后没有做复杂的可视化展示,只是将提取内容写入到了一个普通的txt文件。