自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 蘑菇街商品数据抓取

抓取蘑菇街商品数据主要用于研究,不用于商业用途。 so 1.获取分类列表页面,如 洁面 2.查看这个页面的源代码会发现主要的数据请求都是异步Ajax实现的,上面页面就是一个空的框架壳子,所以我们需要找到Ajax请求地址 3. 4.去页面代码中找到实现这个新的请求地址的代码<!-- ajax 参数 param-name里填参数名 value填参数值--> <input type

2016-03-14 15:52:49 4346 2

原创 unable to find vcvarsall.bat的解决办法

以gevent为例,下载代码,安装后修改如下路径文件:

2014-05-16 15:45:11 511

原创 翻译规则词汇化概率用streaming实现的实例

使用combiner后能够减少io操作,700万左右的测试数据速度提高了1倍,数据更大提升效果更明显。 因为运算量较小,此处使用了streaming方式,性能和pipes相差不大。 mapper负责解析输入的对齐格式sourcetargetalignment combiner负责合并src和tgt的频度,减少给reduce带来的io负担 reduce负责count(src,tgt)/cou

2013-11-16 21:57:31 734

原创 部署hadoop时常见错误解决

1. 运行代码时Authenticate错误   进入hadoop安装目录的src目录下对pipes和utils重新编译,   ./configure make install 第一步时会遇到提示没有找到libssl.so 确认/usr/lib/目录下有这个链接库,如果有的话直接在configure 报错那行注释掉exit,没有的话装一个openssl 然后编译hadoop代码时用sr

2013-11-16 21:49:27 684

原创 hadoop pipes模式中combiner的使用

和streaming模式不同,pipes模式中提供的接口没有直接的Combiner Class定义,但是在他的TemplateFactory头文件中有一个 template <class mapper, class reducer, class partitioner, class combiner, class recordReader> class Te

2013-11-16 21:47:06 912

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除