最近开始正式整我的吉他谱搜索引擎,搭了一个很轻量级但是个人觉得比较好用的爬虫框架,以及一个非常简单的搜索页面。
另外花了一点钱将域名注册了下来,可以试试 http://www.needtab.com
现在上面放的是这个最简单的版本,接下来将在功能上及美工方面逐步细化。并在短期内推广上线。
这里不过多的讨论曲谱搜索引擎了,我将我写的轻量级爬虫框架开源到了网上,希望能对需要的人有所参考帮助。
项目开源地址:http://code.google.com/p/guitartabgripper/
你能使用SVN获取到源码
svn checkout http://guitartabgripper.googlecode.com/svn/trunk/ guitartabgripper-read-only
采用python2.6开发,目录结构如下:
src下
BaseGripper 爬虫基类,
DBFactory 数据库适配器工厂,
GuitarTabGripperDB 吉他谱爬虫数据库适配器,
Main 任务启动入口
page_grip_helper下放的是通用工具类,包括DB 数据库连接模块,PageGripper页面抓取模块,Tools工具集
Grippers下是我的具体爬虫实现,可以看一下,里面基本都是具体业务相关
具体挖掘方法可以参考我的整个实现,
如果需要用这个框架编写其他类型的数据挖掘工具(比如视频爬虫、论坛帖爬虫),只需要修改一些业务层面的(如src下的若干适配、Grippers下的具体爬虫实现)即可。