大数据
FieldSoft-HelloClyde
这个作者很懒,什么都没留下…
展开
-
zookeeper日志及快照
zookeeper日志及快照目录事务日志可视化转换转载 2017-08-16 13:11:12 · 429 阅读 · 0 评论 -
NekoHTML 学习笔记
NekoHTML 学习笔记 J. Andrew Clark 用Java写了一系列的工具 (Java APIs),NekoHTML 是其中之一。 NekoHTML 是一个简单地HTML扫描器和标签补偿器(tag balancer) ,使得程序能解析HTML文档并用标准的XML接口来访问其中的信息。这个解析器能投扫描HTML文件并“修正”许多作者(人或机器)在编写HTML文档过程中转载 2017-08-23 16:34:20 · 17599 阅读 · 1 评论 -
NekoHTML解析HTML为XML后TagName一直为大写的问题解决
问题:java使用NekoHTML解析HTML的时候发现NekoHTML总是把标签名转换成大写,导致之前写的XPath都用不了,虽然可以用脚本把之前的历史XPath都转换一遍,但是如果新来的运营不知道的话,还是可能会出现不必要的麻烦。分析:在网上一顿搜索,发现自己的blog里也有写,只是之前没有注意,NekoHTML提供了一些配置项,可以精确的配置NekoHTML的行为。与我们这个原创 2017-09-18 17:46:34 · 1017 阅读 · 1 评论 -
elasticsearch-6.0.1 笔记
1.java 版本必须是1.8或者以上,否则不能启动2.必须修改config/elasticsearch.yml配置中的cluster.name,比如说cluster.name:index_open_search,防止其连接到其他集群3.必须修改config/elasticsearch.yml配置中的network.host,改为network.host:0.0.0.0这样就能被其他hos原创 2017-12-08 14:27:34 · 1151 阅读 · 1 评论 -
hadoop 2.3.0-cdh5.0.0笔记
hadoop笔记原创 2017-12-18 10:49:30 · 372 阅读 · 0 评论 -
ES笔记-_source字段和store选项比较
ES中_source字段也是存储在lucene段中的,存储方式和store没差,默认都是使用LZ4压缩,当然可以选择更高的压缩选项,具体参考:https://www.elastic.co/guide/en/elasticsearch/reference/current/index-modules.html#index-codec一些人认为存储到不同字段会比存储到一个_source字段中灵活,并且也...翻译 2018-05-19 20:56:29 · 1202 阅读 · 0 评论 -
ES-优化了store字段的合并
在Lucene4的时候进行段合并的时候,我们解压所有字段,然后再把他们压缩到新段中,虽然LZ4压缩算法很快,但是也会耗费大量的CPU。现在Lucene5已经不再这么做了,而是直接拷贝这些已经被压缩的数据。拷贝也有个问题,就是段的最后一块总是不完整的,如果,虽然这一块很小(小于16K),但是日积月累的话,还是会增加压缩比。所以我们增加了一个阈值,如果这些不完整的快足够多的话,我们再段合并的时候就使用...翻译 2018-05-21 10:19:46 · 764 阅读 · 0 评论