MapReduce基础开发之四参数传递

Map和Reduce函数是在各节点进行,如果要在MapReduce数据加工中使用共同参数,要如何传参呢?方法有二: 1、Configuration类的set和get的方法读取xml/txt文件设置或自己配置,再通过Map和Reduce函数的Context来获取; 2、基于org.apache....

2016-06-29 15:40:13

阅读数 3769

评论数 0

MapReduce基础开发之三字段处理并输出Hive表

1、MR设计和开发    1)设计:      输入:用户名 | 数字ip | 时间戳 |  url      MR处理:读取正则表达式匹配url,满足则解析url并转换ip和时间戳,      输出:用户名|点分制IP|日期时间|URL域名|URL参数;    2)开发,见源码;      测试...

2016-06-28 11:36:40

阅读数 4403

评论数 0

Java正则表达式基础案例和语法

正则表达式是一种可以用于模式匹配和替换的规范,一个正则表达式就是由普通的字符(例如字符a到z)以及特殊字符(元字符)组成的文字模式,它 用以描述在查找文字主体时待匹配的一个或多个字符串。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。 Java.util.regex是一个用正则表...

2016-06-24 17:03:58

阅读数 2123

评论数 0

MapReduce基础开发之二数据去重和排序

因Hadoop集群平台网络限制,只能在eclipse里先写好代码再提交jar到集群平台namenode上执行,不能实时调试,所以没有配置eclipse的hadoop开发环境,只是引入了hadoop的lib包。 eclipse的hadoop开发环境配置可参考:http://www.cnblogs....

2016-06-23 11:14:31

阅读数 4314

评论数 0

MapReduce基础开发之一词汇统计和排序(wordcount)

统计/var/log/boot.log中含k的字符的数量,并对含k的字符按照数量排序。需分两个job完成,一个用来统计,一个用来排序。 一、统计 1、上传文件到hadoop:    1)新建文件夹:hadoop fs -mkdir /tmp/fjs    2)上传文件:hadoop fs ...

2016-06-22 17:13:20

阅读数 4722

评论数 0

算法导论之数据结构

数据结构 集合,是数学也是计算机科学的基础,在表示和操纵有穷、动态集合上,动态集合中每个元素由对象来表示,并有指向对象的指针。对动态集合的操作分为两类:查询和修改,操作以指针为导航,涉及元素对象内的关键字和卫星数据。 数据结构和动态集合的关系,可以这么理解,把集合中的元素根据相互间关系用某种结...

2016-06-17 09:12:50

阅读数 2403

评论数 0

eclipse+adt下开发android微信红包自动抢(AccessibilityService类)

纯粹是兴趣,google提供了android操作系统的钩子AccessibilityService类,用于监听我们手机的焦点、窗口变化、按钮点击、通知栏变化等。微信红包自动抢通过AccessibilityService类,截取通知栏中有[微信红包]字样的通知,然后跳到微信红包界面领取红包。从网上的...

2016-06-16 11:05:16

阅读数 3007

评论数 0

VBS脚本和HTML DOM自动操作网页

本来是想通过JS实现对其他页面的控制,发现跨域无法获取页面DOM来操作。接着考虑bat,发现也实现不了,于是想到vbs。vbs还是很强大啊,病毒之类很多都是vbs脚本啊。vbs打开浏览器,然后通过dom来操作页面,可以实现自动填写内容和按钮点击等。摸索了几个常用的,代码如下: 1、网页文本框赋...

2016-06-16 10:24:16

阅读数 11261

评论数 0

杂谈人工智能说大数据

阿尔法围棋(AlphaGo)是一款围棋人工智能程序,是程序,然后战胜了人类中围棋最厉害的人,然后人工智能和人的关系的辩论火热起来,然后各种科幻想法也飙血。 但是,我说,既然是程序,那还就只是程序,程序是什么,是工具,不具有能动性。阿尔法围棋的胜利在于机器的稳定性,而人的发挥是不稳定,所以是稳...

2016-06-15 15:21:54

阅读数 2359

评论数 0

JS获取页面鼠标点击位置的坐标

本来想通过JS实现当前页面对其他页面的操作,在网上发现了这段js代码,先保存下来,可以获取页面鼠标点击位置的坐标。 function imitateClick(oElement,iClientX,iClientY){ var oEvent; if (document.createEve...

2016-06-13 15:34:49

阅读数 5758

评论数 0

算法导论之排序和顺序统计学

排序:对N个数的序列重排过程。待排序的数,一般是选择记录中数据集的关键字key作为排序的值,而数据集中其他数据(称为:卫星数据)以key为中心移动。实际上,对于排序过程中,key的移动和交换,卫星数据并不定跟着,只要记录的指针随key交换即可,将数据移动量减小到最小。 关键字和卫星数据所构成的数...

2016-06-02 15:23:06

阅读数 2221

评论数 0

Eclipse高版本无法兼容FatJar的问题解决

发现eclipse打包jar无法连带打包第三方lib,于是选择安装插件fatjar,现在说明fatjar安装过程: 1、安装方法:    1)下载安装:    https://sourceforge.net/projects/fjep/files/    解压下载的ZIP包,将里面的J...

2016-06-01 16:51:20

阅读数 13992

评论数 16

HtmlUnit解析动态网页并采集网页列表到Excel

HtmlUnit可以解析动态网页,本文这里选取了一个网址(页面需js/ajax动态加载),模拟浏览器操作页面各元素,包括点击获取列表值,主要是掌握了HtmlUnit解析页面元素的主要用法,同时使用POI HSSF将页面解析出来的ul/li标签内容导入到excel表。 本文代码只用来作为HtmlUn...

2016-06-01 14:55:38

阅读数 4428

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭