网络爬虫--python抓取豆瓣同城北京地区活动信息

感谢主赐予我们时光。
本内容只涉及技术探讨,不作为商业用途。

背景

作为入门级的爬虫,其实不需要了解复杂的正则表达式匹配,高深的网络协议。只需要了解一些基本的python语法和html请求/响应原理就能遨游在网络中抓取你想要的内容。今天就和大家分享一个用python实现爬虫的demo。
这里将豆瓣同城北京地区近期音乐活动作为目标,尝试抓取音乐活动列表29页的演出信息。 https://beijing.douban.com/events/future-music? 
当然,这里python版本使用的是3.x,对于2.x的童鞋只需把代码稍作修改便可使用。编辑器使用的是pyCharm,一款优秀的IDE。
在继续往下读之前,你应该知道:1 python的基本语法 2 python类的定义与使用 3 python对网络,文件的基本操作。

为什么说是入门级的?

1 单线程:这里只是使用单线程,相比多线程来说简单好多。
2 静态页面:服务器没有使用Ajax技术动态加载数据,不涉及Ajax请求接口获取json等格式数据。
3 get方式:使用get方式直接获取数据,没用涉及post向服务器发送数据,只是传递了一个pageNum参数。
4 免登陆:部分web页面初始并没有数据可用,需要在用户登录后才会用javascript动态加载。
5 文本格式保存:在获取结果数据后没有做复杂的可视化展示,只是将提取内容写入到了一个普通的txt文件。
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值