谈谈我的首个开源项目WeiboSpider（0）——WeiboSpider的总体架构

最新推荐文章于 2024-08-09 08:06:10 发布

Phospher_Lau

最新推荐文章于 2024-08-09 08:06:10 发布

阅读量2.9k

点赞数 21

分类专栏：软件开发 WeiboSpider 文章标签：开源项目 Python 微博 NoSQL

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/phospher/article/details/8927208

版权

本文介绍了作者的首个开源项目WeiboSpider，一个使用Python编写的微博爬虫。旨在获取自然语言处理所需的语料，项目采用广度优先算法进行抓取，利用NoSQL数据库（最初MongoDB，后改为Redis）存储数据。文章讨论了项目架构、模块间交互的低耦合设计，以及选择NoSQL而非关系型数据库的理由。

摘要由CSDN通过智能技术生成

为什么是微博爬虫？

WeiboSpider，顾名思义就是一个微博的爬虫。去年（2012年）年中的刚开始学习python的时候，我同时在看一本关于自然语言识别的书。对自然语言识别有兴趣是因为看了吴军博士的《数学之美》，而且随着数据挖掘、大数据的兴起，自然语言处理在互联网中会有越来越多的应用。

但学习自然语言处理是需要语料的，特别我感兴趣的是统计的识别方法而不是基于规则的识别方法，这就需要大量的语料训练程序，才能达到好的识别效果。虽然搜狗、百度都有把他们研究用的语料库公开出来，但由于语料库过于庞大，网络传输的可能性不大（所以这两家公司都要求想获取语料库的人邮寄一个1T的硬盘给他们）。

所以我最终选择自己写爬虫获取语料。和大公司提供的语料库不一样，我希望抓取的是微博上的内容。尽管微博上的内容“噪声”很多，对程序的训练会造成很大困难。但是微博的内容更符合一般人日常书写的习惯，特别是SNS网络中的书写习惯，并且微博的内容都是公开的，所以最终选择了开发微博的爬虫。

这是一个纯Python的程序

选择Python作为开发语言其实纯粹是个人喜好，因为那段时间刚好初学Python，想找一个

最低0.47元/天解锁文章

关注

21
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。