python
码农CGGG
现在是一个游戏开发者
展开
-
用python进行分布式网页数据抓取(一)——设计
<br />这几天做一个小项目,分给我的模块是对于BOKECC体系网站的抓取。<br />从来没有用过python,这次来尝一下鲜,感觉还行~<br /> <br />BOKECC就是一个视频网站的解决方案,我的任务很简单,就是给定一个网址,我来抓取对应页面上的数据内容。<br />整个系统采用分布式架构,我来负责做爬虫节点。<br /> <br /><br /> <br /> <br />简单来说就是整个系统可分布式部署,每个节点接收来自控制者的远程调用,独立完成任务,并向上级汇报完成情况。<br />这原创 2010-09-17 20:32:00 · 8813 阅读 · 0 评论 -
设计PushServer来将系统间轮询机制转变为实时通讯
很多系统在实现原型时,由于初期对执行效率、处理速度等方面没有苛刻的要求,都会设计成轮询的模型。而当我们实现完轮询的架构后,可能由于各种需求,需要将系统整体的响应速度缩短。于是我们需要考虑,如何将轮询的机制变为实时通知呢?(具体的应用比如参考HTTP协议,它在设计初期,就是设计成客户端到服务端:请求、响应、断开。HTTP协议非常适合初期窄带宽且网络不稳定的情况下的数据传输,而直到今天,W原创 2012-04-18 19:09:36 · 1795 阅读 · 0 评论 -
一个简单的集群任务调度框架
说到服务器集群后台的任务调度,这可能是很多网站或者计算集中型方案经常使用到的。本文不讨论map/reduce级别的任务拆分和调度,本文设计的调度框架只满足以下几点特性:1)轻量级,代码框架及实现原理非常简单,容易部署2)集群可扩展,理论上集群机器数量,以及每台机器上的执行任务数都可扩展3)业务单元化,业务定义的下发任务是具体的、可颗粒化的,本框架不辅助做任务或工作流的拆分,原创 2011-12-20 16:57:35 · 4443 阅读 · 0 评论 -
让FFMPEG支持实时流“伴随”转码
FFMPEG命令行工具目前无法针对视频实时流进行转码,而我们可以用它的新版本提供的支持TCP SERVER的特性来实现这一功能。实现边录边用FFMPEG提供的命令行工具进行转码。(实践证明,FFMPEG 的SDK针对实时流开发比较繁琐,命令行工具相对来说稳定)我们将实原创 2011-10-11 16:05:15 · 8971 阅读 · 3 评论 -
通过XMLRPC简单构建 python服务端和C#客户端通信框架
python服务端:使用SimpleXMLRPCServer代码如下:from SimpleXMLRPCServer import SimpleXMLRPCServerdef getTest(): return 'test message'原创 2011-08-26 17:08:58 · 3931 阅读 · 0 评论 -
用python写的一个超小型配置文件读取器
mark一下,自己写的超级轻巧的配置文件读取器原创 2011-04-02 17:15:00 · 1388 阅读 · 0 评论 -
曲谱搜索进展 及 python的轻量级爬虫框架
<br />最近开始正式整我的吉他谱搜索引擎,搭了一个很轻量级但是个人觉得比较好用的爬虫框架,以及一个非常简单的搜索页面。<br /> <br />另外花了一点钱将域名注册了下来,可以试试 http://www.needtab.com<br /> <br />现在上面放的是这个最简单的版本,接下来将在功能上及美工方面逐步细化。并在短期内推广上线。<br /> <br /> <br />这里不过多的讨论曲谱搜索引擎了,我将我写的轻量级爬虫框架开源到了网上,希望能对需要的人有所参考帮助。<br /> <br /原创 2010-12-07 14:21:00 · 2532 阅读 · 1 评论 -
用python进行分布式网页数据抓取(三)—— 编码实现
<br />呵呵,前两节好像和python没多大关系。。这节完全是贴代码,<br /> <br />这是我第一次写python,很多地方比较乱,主要就看看逻辑流程吧。<br /> <br />对于编码格式确实搞得我头大。。取下来页面不知道是什么编码,所以先找charset,然后转unicode。统一在unicode下操作,但是数据库是utf8的,WINDOWS的控制台又必须是gbk的,但是我IDE控制台必须是utf8的。。所以才会有DEBUG这个变量存在。。。主要是为了控制输出编码。<br /> <br /原创 2010-09-17 20:59:00 · 7408 阅读 · 4 评论 -
用python进行分布式网页数据抓取(二)—— 核心问题讨论
<br />数据匹配<br /> <br />首先先研究最关键的数据抓取。从形式各异的数据中将内容“扒”下来。<br />当然得依赖我们的强力工具 正则表达式了(个人觉得基于DOM树分析很麻烦,很不灵活)<br /> <br />分析了几个BOKECC页面后,总结如下:<br />1. 各页面有一定差别,可能是基于不同版本。HTML写的很不正规,基于HTML标签来匹配肯定不合适。<br />2. 页面带动态内容,需要分析,模拟AJAX去请求。<br /> <br />在基于HTML源码的数据爬取中,如果单纯原创 2010-09-17 20:53:00 · 6290 阅读 · 1 评论 -
利用opencv做图片相似度比较
对于图片相似度比较有很多方法,我们这以RGB直方图为例。我们以一种规则,使得每个图片生成一组描述的特征向量。opencv的直方图比较函数我们可以巧妙的利用,其有若干比较规则,但只支持直方图的数据结构,我们可以将特征向量拟合成直方图的数据结构,然后使用其的相似度比较函数。具体的数学计算方法有兴趣的可以看opencv的官方教程,这里我们期望生成百分比形式的相似度参数,所以使原创 2012-07-05 14:14:21 · 17769 阅读 · 0 评论