![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
笔记
文章平均质量分 84
jimmee
这个作者很懒,什么都没留下…
展开
-
整理一下准备编写的笔记目录
工作6年,主要从事分布式服务器端开发(3年),做过垂直爬虫和搜索以及数据挖掘(2年),1年的产品的业务开发,学习过和使用过的东西,陆续会写笔记,在整理的同时,算是一种经验积累的记录吧。 tcp通信过程中的一些重要事项,udt的原理和源码分析,参看 http://jimmee.iteye.com/admin/blogs/2037451 系列 图片处理 垂直爬虫的注意点 ht...原创 2013-12-31 21:21:15 · 196 阅读 · 0 评论 -
Java 并发之 ConcurrentSkipListMap 简述
JCIP 提到了在 Java 6 中引入了两个新的并发集合类 ConcurrentSkipListMap 和 ConcurrentSkipListSet。其实只要介绍一下 ConcurrentSkipListMap 即可(后面简称为 CSLM),因为我们都知道 JDK 中 Set 是基于 Map 实现的。简而言之,CSLM 是一个并发的、可排序的 Map,因此它可以在多线程环境中弥补 Concu...原创 2015-09-20 20:24:31 · 212 阅读 · 0 评论 -
hbase等源码导入eclipse流程
hbase: 1. 下载源码 svn co http://svn.apache.org/repos/asf/hbase/trunk hbase 2. 执行 mvn eclipse:eclipse -DskipTests 3. 导入到eclipse tomcat: tomcat的源码是利用ant来创建和管理的。先安装ant,再执行ant ide-ecl...原创 2015-09-20 19:00:25 · 224 阅读 · 0 评论 -
智能应用中八个常见的误区
误区1:数据是可靠的 很多因素会导致你获取的数据不可靠。在考虑具体的智能算法解决方案之前,首先就要判断数据是否可信。如果数据有问题,就算是最聪明的人,通常也会得出错误的结论。 可能导致数据出错的原因有很多,在此不可能一一列举,下面列出了部分有代表性的可能导致数据出错的因素: · 在开发过程中所使用的数据不能代表产品环境中的数据。例如,对某个社交网络中的用户按身高分类“高”、“一般”和“...原创 2014-04-17 21:49:44 · 104 阅读 · 0 评论 -
通用爬虫框架及heritrix爬虫介绍
第1部分 通用爬虫 1.1 通用爬虫框架介绍 图1-1描述了通用的爬虫框架,其基本上包括了一个爬虫系统所需要的所有模块。任何一个爬虫系统的设计图,会发现都有一个环路,这个环代表着爬虫大致的工作流程:根据url将对应的网页下载下来,然后提取出网页中包含的url,再根据这些新的URL下载对应的网页,周而复始。爬虫系统的子模块都位于这个环路中,并完成某项特定的功能。 ...原创 2014-04-16 19:09:25 · 725 阅读 · 0 评论 -
垂直搜索-爬虫部分
垂直搜索与通用搜索不同之处在于,通用搜索不需要理会网站哪些资源是需要的,哪些是不需要的,一并抓取并将其文本部分做索引。而垂直搜索里,我们的目标网站往往在某一领域具有其专业性,其整体网站的结构相当规范,并且垂直搜索往往只需要其中一部分具有垂直性的资源,所以垂直爬虫相比通用爬虫更加精确。 垂直爬虫抓取数据分成三个步骤:list-crawling(列表url抓取),detail-crawling(...原创 2014-04-09 23:11:06 · 313 阅读 · 0 评论 -
MessagePack, Protocol Buffers和Thrift序列化框架原理和比较说明
第1部分 messagepack说明 1.1messagepack的消息编码说明 为什么messagepack比json序列化使用的字节流更少, 可通过图1-1、图1-2有个直观的感觉。 图1- 1 messagepack与json的格式对比1 图1- 2 messagepack与json的格式对比2 messagepack的具体的消息格式如图1-3所示,...原创 2014-04-09 12:50:24 · 532 阅读 · 0 评论 -
Lucene的数字范围搜索 (Numeric Range Query)原理
0. 全文索引的核心就是倒排索引. 1. 若数字不支持范围查询, 直接变成字符串查找即可 2. 如果要支持范围查询, 直接的字符串存储支持么? 目前lucene要求term按照字典序(lexicographic sortable)排列,然后它的范围查询根据tii找到范围的起始Term,然后把这中间的所有的Term展开成一个BooleanQuery。 ...原创 2014-04-05 16:08:54 · 709 阅读 · 0 评论 -
mapreduce的一些算法设计,优化等(2)
1. 反序(order inversion)模式 通过反序模式,我们可以控制中间结果进入reducer的顺序,从而在reducer中先计算出一些结果(根据先进入reducer的中间结果计算出),而这些结果对于高效处理后续的数据很有意义。要使用反序模式,需要先将算法中的操作序问题转化为一般排序问题。 以共现矩阵为例,要计算相对频率问题。 (1)strip...原创 2014-01-28 15:50:34 · 142 阅读 · 0 评论 -
mapreduce的一些算法设计,优化等(1)
本系列是根据书籍《Data-Intensive Text Processing with MapReduce.pdf》和工作中的一些mapreduce使用做的笔记: 本篇针对《Data-Intensive Text Processing with MapReduce》第三章: 1. local aggregation(局部合并) IN-MAPPER COMBINING,也就是...原创 2014-01-27 17:15:56 · 309 阅读 · 0 评论 -
hadoop的mapreduce的join操作原理
1. 概述 如果我们有如下的两个文件: person.txt(字段是id, name,addressId): 1 tom 100 2 jme 101 3 kite 102 4 jack 100 5 tim 101 address.txt(字段是id,name): 100 ...原创 2014-01-23 16:23:39 · 534 阅读 · 0 评论 -
hadoop的mapreduce的一些关键点整理
hadoop的mapreduce的流程图如下: (1)用户提交一个任务以后,该任务由JobTracker协调,先执行Map阶段(图中M1,M2和M3),然后执行Reduce阶段(图中R1和R2)。Map阶段和Reduce阶段动作都受TaskTracker监控,并运行在独立于TaskTracker的Java虚拟机中。 (2)输入和输出都是HDFS上的目录(如上...原创 2014-01-14 23:14:24 · 100 阅读 · 0 评论 -
听吴军博士的"机器智能与未来世界"讲座的一点笔记
1. 摩尔定律(机器计算速度已经越来越快), 大数据(有了数据), 数学模型, 三者加在一起, 能起到质的变化 2. 大数据: 不仅仅是量大, 不仅仅是结构化与非结构化的区别, 需要多维度的数据(例如一个人的细胞, 数据量很大, 但是只是一个样本, 作用应该也不大), 数据越完备越好. 3. 未来机器智能的发展, 可能会2%的人控制98%的人. 4. 机器不会完全替...2014-12-09 21:08:28 · 319 阅读 · 0 评论