网络爬虫--python抓取豆瓣同城北京地区活动信息

最新推荐文章于 2024-09-13 18:11:35 发布

南山墓碑

最新推荐文章于 2024-09-13 18:11:35 发布

阅读量2.3k

点赞数

分类专栏： python 文章标签： python 爬虫数据挖掘正则表达式豆瓣

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cywtd/article/details/51589908

版权

本文是一篇入门级别的网络爬虫教程，使用Python进行数据抓取。主要内容包括获取系统路径、设定字符编码、正则表达式处理换行符，并将抓取的豆瓣同城北京地区活动信息保存到txt文件中。

摘要由CSDN通过智能技术生成

感谢主赐予我们时光。
本内容只涉及技术探讨，不作为商业用途。

背景

作为入门级的爬虫，其实不需要了解复杂的正则表达式匹配，高深的网络协议。只需要了解一些基本的python语法和html请求/响应原理就能遨游在网络中抓取你想要的内容。今天就和大家分享一个用python实现爬虫的demo。

这里将豆瓣同城北京地区近期音乐活动作为目标，尝试抓取音乐活动列表29页的演出信息。 https://beijing.douban.com/events/future-music?

当然，这里python版本使用的是3.x，对于2.x的童鞋只需把代码稍作修改便可使用。编辑器使用的是pyCharm，一款优秀的IDE。

在继续往下读之前，你应该知道：1 python的基本语法 2 python类的定义与使用 3 python对网络，文件的基本操作。

为什么说是入门级的？

1 单线程：这里只是使用单线程，相比多线程来说简单好多。

2 静态页面：服务器没有使用Ajax技术动态加载数据，不涉及Ajax请求接口获取json等格式数据。

3 get方式：使用get方式直接获取数据，没用涉及post向服务器发送数据，只是传递了一个pageNum参数。

4 免登陆：部分web页面初始并没有数据可用，需要在用户登录后才会用javascript动态加载。

5 文本格式保存：在获取结果数据后没有做复杂的可视化展示，只是将提取内容写入到了一个普通的txt文件。

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。