曲谱搜索进展 及 python的轻量级爬虫框架

最近开始正式整我的吉他谱搜索引擎,搭了一个很轻量级但是个人觉得比较好用的爬虫框架,以及一个非常简单的搜索页面。

 

另外花了一点钱将域名注册了下来,可以试试 http://www.needtab.com

 

现在上面放的是这个最简单的版本,接下来将在功能上及美工方面逐步细化。并在短期内推广上线。

 

 

这里不过多的讨论曲谱搜索引擎了,我将我写的轻量级爬虫框架开源到了网上,希望能对需要的人有所参考帮助。

 

项目开源地址:http://code.google.com/p/guitartabgripper/

 

 

你能使用SVN获取到源码

svn checkout http://guitartabgripper.googlecode.com/svn/trunk/ guitartabgripper-read-only

 

 

采用python2.6开发,目录结构如下:

 

 

src下

BaseGripper 爬虫基类,

DBFactory 数据库适配器工厂,

GuitarTabGripperDB 吉他谱爬虫数据库适配器,

Main 任务启动入口

page_grip_helper下放的是通用工具类,包括DB 数据库连接模块,PageGripper页面抓取模块,Tools工具集

Grippers下是我的具体爬虫实现,可以看一下,里面基本都是具体业务相关

 

具体挖掘方法可以参考我的整个实现,

如果需要用这个框架编写其他类型的数据挖掘工具(比如视频爬虫、论坛帖爬虫),只需要修改一些业务层面的(如src下的若干适配、Grippers下的具体爬虫实现)即可。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值