对互联网海量数据实时计算的理解 ——摘抄自http://tech.ddvip.com/2011-10/1319783898169602.html

对互联网海量数据实时计算的理解 1. 实时计算的概念 互联网领域的实时计算一般都是针对海量数据进行的,除了像非实时计算的需求(如计算结果准确)以外,实时计算最重要的一个需求是能够实时响应计算结果,一般要求为秒级。个人理解,互联网行业的实时计算可以分为以下两种应用场景: ...

2013-07-28 16:55:12

阅读数 463

评论数 0

python VS java 摘自http://www.ej38.com/showinfo/Python-209370.html

谈到了Python语句的两种执行方式,实际上,这两种运行方式在本质 上是相同的,它们都是由解释器来解释执行我们提供的Python语句。 这里所说的解释执行是相对于编译执行而言的。我们知道,使用诸如 C或C++之类的编译性语言编写的程序可以从源文件转换成计算机使用 的机器语言, 经连接器连接后形成二...

2013-07-26 23:18:48

阅读数 724

评论数 0

网页去重-算法篇

网页去重-算法篇   摘抄与:http://zz.shangdu.com/index-htm-m-cms-q-view-id-691.html http://zz.shangdu.com/index-htm-m-cms-q-view-id-692.html http://zz.shangdu...

2013-04-09 09:53:01

阅读数 498

评论数 0

集体智慧编程读书笔记——第二章 提供推荐

1. 概念: 协作性过滤算法是对一大群人进行搜索,并从中找出与我们品味相近的一小群人。算反对这些人所偏爱的其他内容进行考察,并将它们组合起来构造出一个经过排名的推荐列表。 2. 表示方法: 书中的例子用嵌套字典表示用户的喜好数据。{"person":{"item...

2013-03-29 11:30:56

阅读数 554

评论数 0

推荐算法(2)——常用的预测算法

推荐算法莫过于预测用户的想要的东西给予推荐。 常用的预测算法有:slope one算法,hmm算法, 1. slope one算法 slope one算法是一种简单的协同过滤算法。基本原理是通过平均值预测对某个事物的喜好程度,因为slope one算法认为平均值可以代替某2个未知个体之间的打...

2013-03-28 14:37:55

阅读数 1067

评论数 0

推荐算法(1)——常用的推荐方法

互谅网行业,推荐无处不在。推荐的方法大致分为2类——基于用户相识度的推荐,基于物品关联的推荐。 1. 基于用户相识度的推荐 用户相识度计算是通过用户的行为计算用户的“距离”。 用户行为有多个维度,比如对某个商品的打分,用户的年龄、职业,用户浏览的站点等等。 就购买行为来讲,有用户的购买商品...

2013-03-28 14:04:58

阅读数 656

评论数 0

nodejs安装

安装: 前提:安装好python2.6或2.7,我安装的是2.6.6 下载:http://nodejs.org/dist/v0.6.1/node-v0.6.1.tar.gz 解压: tar -xvf node-v0.6.1.tar.gz cd node-v0.6.1 ./configue...

2013-03-08 14:01:12

阅读数 973

评论数 0

python程序关键路径测试

参考文献:http://docs.python.org/library/profile.html#module-cProfile cProfile——  is recommended for most users; it’s a C extension with reasonable o...

2013-03-06 23:36:24

阅读数 531

评论数 0

python变量前加*号的含义

1. 关键字参数: 在参数名之前使用2个星号来支持任意多的关键字参数。 >>> def accept(**kwargs): ...     for keyword, value in kwargs.items(): ...         print "%s =...

2013-03-06 23:35:26

阅读数 4216

评论数 0

python yield语句

前言: 理解yield首先要理解generator, 要理解generator又先要理解可迭代对象iterables. 1. 可迭代对象: 创建一个list的时候,可以逐个去读取其中的元素,这就是一个可迭代对象。 generator也是一个可迭代对象,但是只能读取一次。它并不把所欲的值都存...

2013-03-06 23:34:48

阅读数 585

评论数 0

防爬机制

一、手工识别和拒绝爬虫的访问 最简单的方法就是用netstat检查80端口的连接 netstat -nt | grep youhostip:80 | awk '{print $5}' | awk -F":" '{print $1}'| sort | uniq -c | so...

2013-03-06 23:33:14

阅读数 1019

评论数 0

python版爬虫

python爬虫的三个版本: 1. 基于urllib, urllib2 基于http请求响应的封装。有局限性,因为不能处理动态的脚本如js,一些操作无法实现。 2. 内嵌webbrowser 如pyqt的webkit,pamie, spynner(基于webkit) 这种内嵌的方式类似于...

2013-03-06 23:32:30

阅读数 440

评论数 0

redis数据类型描述+为什么耗内存+为什么容易崩溃

1. 数据类型:string, list, hash, set, sorted set. 2. 数据内存描述: redisObject对象表示所有的key和value。redisObject主要的信息如图表示:type表示一个value对象具体是何种数据类型,encoding是不同...

2013-03-06 23:30:29

阅读数 2630

评论数 0

redis学习笔记

1. redis的数据类型可以是:string, hash, set, list, set, sorted set. 2.redis两种文件格式:全量数据和增量数据请求。全量数据格式将内存中的数据写入磁盘,下次读取文件进行加载;增量请求文件把内存中的数据序列化为操作请求,用于读取文件进行re...

2013-03-06 23:28:05

阅读数 445

评论数 0

redis数据结构图

展示Redis内部DB的实现和其支持的各种data types在redis DB内的存储方式

2013-03-06 23:25:34

阅读数 1717

评论数 0

一淘架构

一淘架构 抓取系统:包括网页抓取、抓取调度、域名解析、死链检测、JavaScript执行等。目前,一淘的资讯、话题、问答combo中的大部分数据都 是通过抓取系统从互联网获得的。它是一淘一个重要的“原料厂”。 离线处理系统:一个功能众多、可灵活定制的Pipeline,其主要功能有:网页编码识别...

2013-03-06 23:22:23

阅读数 588

评论数 0

一个设计良好的爬虫架构必须满足的要求

(1)分布式:爬虫应该能够在多台机器上分布执行; (2)可伸缩性:爬虫结构应该能够通过增加额外的机器和带宽来提高抓取速度; (3)性能和有效性:爬虫系统必须有效地使用各种系统资源,例如,处理器、存储空间和网络带宽。 (4)质量:鉴于互联网的发展速度,大部分网页都不可能及时出现在用户查询中,所...

2013-03-06 23:20:53

阅读数 456

评论数 0

spider的问题点

Spider系统是搜索引擎当中进行互联网上数据采集的一个核心子系统。在这个子系统当中,通常先种入一批种子Url,Spider对这些种子Url采集之后将链接提取入库,然后再对新入库的Url进行采集,并且负责对采集过的Url进行更新采集,如此循环。 随着各种垂直搜索引擎的不断发展,整个Spide...

2013-03-06 23:17:14

阅读数 355

评论数 0

hadoop单机版安装

前提:安装好jdk. 1. 下载1.0.4版本 : http://apache.etoak.com/hadoop/common/hadoop-1.0.4/hadoop-1.0.4.tar.gz 2. 新建hadoop用户,名字可以自己取,比如hadooper。 3. 切换到hadoo...

2013-03-06 23:12:29

阅读数 318

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭