自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(39)
  • 资源 (1)
  • 收藏
  • 关注

原创 Java操作office、excel文件

Java操作office、excel文件

2024-01-22 14:51:41 395

原创 freemarker导出excel笔记

word/exce模板插入数据,freemarker使用方法及问题

2023-11-10 14:08:36 704

原创 ES中的_refresh

当我们把一条数据写入到Elasticsearch中后,它并不能马上被用于搜索。新增的索引必须写入到Segment后才能被搜索到,因此我们把数据写入到内存缓冲区之后并不能被搜索到。_flush 不会影响 Elasticsearch 中文档的可见性,因为搜索是在内存段中进行的,而不是 _refresh 会影响其可见性。refresh默认在 refresh_interval中设置,默认为1s刷新一次。当大量数据插入时,建议手动刷新,也节省性能,减少等待时间。_refresh 用于使新文档可见以进行搜索。

2023-10-31 15:56:09 266

原创 相关度评分背后的理论

Elasticsearches打分机制讲解。

2023-08-01 15:42:53 114

原创 项目执行异常-UnsatisfiedDependencyException

sprintboot项目编译异常

2023-05-15 16:31:42 254

原创 使用 fdisk 对分区进行扩容(非LVM)

使用 fdisk 对分区进行扩容(非LVM)

2022-11-03 16:48:39 2741

原创 linux系统参数命令

linux系统参数

2022-08-03 16:08:48 371

原创 hbase问题总结

个人笔记,总结看到的hbase问题,方便以后查阅

2022-04-26 16:02:34 1107

原创 LVM逻辑卷管理器

linux笔记:硬盘设备资源管理技术了—逻辑卷管理器(Logical Volume Manager,LVM)。LVM允许用户对硬盘资源进行动态调整。主要作用:动态调整磁盘分区

2022-03-25 14:02:00 1445

原创 分布式爬虫nutch学习路线2022

适用nutch2.x,也应该适用1.x官网下载nutch2.x源代码使用ant编译编译后生成文件夹:nutch/runtime/deploy/bin/文件夹下有两个启动脚本crawl和nutchcrawl为nutch封装脚本,执行整个流程.分为6个阶段inject–》generate–》fetch–》parse–》update–》index其中generate到update为循环过程对应5中的流程去nutch脚本中找调用的主类,看懂。结束...

2022-03-21 19:45:22 285

原创 帮助文档合集

Zabbix是一个企业级分布式开源监控解决方案

2021-12-08 17:08:40 499

原创 linux中的bug合集

解决错误File “/usr/bin/yum”, line 30 except KeyboardInterrupt, e:yum采用python作为命令解释器之前修改高版本为默认解释器在#!/usr/bin/python2.7 加上版本即可通过tab键补全pyt

2021-12-01 10:52:19 2749

原创 vim命令

:%s/a1/a2/ 替换每一行的第一个a1 为 a2:%s/a1/a2/g 替换每一行中所有 a1 为 a2%代表每一行GG:调到最后一行

2021-10-28 15:10:31 69

原创 Java爬虫笔记

HttpClient文章目录HttpClientRequestConfig的配置一、时间设置自动重定向的设置参考资料RequestConfig的配置一、时间设置RequestConfig config = RequestConfig.custom() .setConnectTimeout(1000) .setConnectionRequestTimeout(1000) .setSocketTimeou

2021-10-28 11:40:30 134

原创 NoRouteToHost

IOException当网络上的一台机器不知道如何将 TCP 数据包发送到指定的机器时,您会收到 TCP No Route To Host 错误 - 通常包含在 Java 中。我的问题是:本地ip修改后,未重启集群导致的。JVM中还缓存这原来的host映射关系其他原因:配置文件中远程机器的主机名错误客户端的主机表/etc/hosts具有目标主机的无效 IP 地址。DNS 服务器的主机表具有目标主机的无效 IP 地址。客户端的路由表(在 Linux 中为 iptables)是错误的。DHCP

2021-10-22 16:38:36 1080

原创 Spark HistoryServer Web UI 上的时间显示错误

在使用 spark 历史服务器时,开始和结束时间会与实际时间不同。其他地方显示都正常。原因:历史服务器获取的是标准时间GMT.北京时间位于东八区,会相差8小时。个人理解:时区的获取由硬件操作,只能获取到GMT,改成北京时间需要修改对应的偏移量(重新编译源代码)解决如下:https://github.com/apache/spark/pull/16485/files个人建议:凑合用吧。只要记住时差就好了。参考:spark官方补丁Spark History Server Web UI 上的时间显

2021-10-21 18:25:30 333

原创 Linux改变文件的属主和属组

chownchown a1:a2 filename 修改filename的所属用户及用户组chown a1 filename 修改所属用户chown :a2 filename 修改所属用户组chown -R a1 folder 修改整个文件夹的所属用户说明:chown只有root用户能使用a1为属主a2为属组-R:处理指定目录以及其子目录下的所有文件chgrp不限于root,命令用于变更文件或目录的所属群组。chgrp a2 filenamechgrp -R a2 f

2021-10-20 14:42:11 4219

原创 Hbase查询最新插入的数据

确定hbase表中最后更改的数据是哪一条。可以根据时间戳进行查询Hbase shell命令如下scan 'abc', { COLUMN => 'a:b', TIMERANGE => [1634101200000, 1634223600000]}"将最近的时间转化为时间戳。即可查询到指定时间范围修改对应列的rowkey...

2021-10-18 16:57:21 2548

原创 关于MapReduce中reduce百分比的问题

今天遇到一个问题:MapReduce执行任务的百分比回退,需要查看日志分析。那如何判断是那个阶段出现问题了呢?在reduce阶段大概分为3个阶段shuffle(进度:0~33%)准备数据,获取Map阶段已经计算完的数据。会在map执行完一部分,开始拉取数据。sort(进度:33%~66%)Reduce对拉取的数据进行排序reduce(进度:66%~100%)真正的reduce计算阶段,执行你所写的reduce代码,如果卡在这个阶段,就是reduce的代码发生问题了,否则才是数据量

2021-10-14 14:53:22 929

原创 一致性Hash算法

一致性哈希算法(DHT)应用目前主要应用于分布式缓存当中。可以有效地解决分布式存储结构下动态增加和删除节点所带来的问题。原理客户端和服务器ip或id经过hash计算后都会落在一个hash环上,客户端请求会被分发到顺时针离他最近的服务器上当节点过少时,易照成数据倾斜。这是可以添加虚拟节点来均匀分布对比普通Hash算法,采用取模的形式,当节点数变化时。需要重新计算所有的hash值而一致性哈希只影响变化节点附近的部分值 有时间画画图!!!参考资料什么是一致性哈希?普通Hash与一致性H

2021-09-10 15:14:17 84

原创 Nutch大事件表

Nutch项目由Dong Cutting发起。现在专注于网络爬虫功能nutch1.5版本后 诞生了nutch2.0版本两个分支同时发展,主要是存储方式不同,1.x存储数据在HDFS上,2.x使用Gora映射,存在各种数据库中1.x版本2005年6月 Nutch成为Lucene的一个子项目 8月 Nutch0.7发布2006年7月 Nutch 0.8 发布,基于 hadoop 架构的 Nutch 版本(诞生了Hadoop)2009年3月 Apache Nutch 1.0 发布 需要 Ja

2021-09-08 20:55:30 138

原创 软考中级-软件设计师部分知识点

最近在整理之前的笔记,顺便记录一下。内容比较乱IP地址,子网划分 必考一句话知识点:MIDI 乐器数字接口SSL 安全套接字协议Q 企业标准 QB 国标https使用SSL进行传输,端口443系统干涉是被动攻击编译型语言 编译效率高配置管理 =配置+交付管道/过滤器属性不提高性能字符串的字串应该是连续的,中间无间隔DMA方式下:不需要Cpu执行程序来传输数据,传送速度最快RC5:大量明文加密算法SHA-1,MD5 属于信息摘要算法,不能加密数据互换公钥是A,B互信的必要条件

2021-08-07 15:39:13 183

原创 网络协议常用端口

Internet服务中文端口号传输协议DNS域名系统53UDPTelnet远程登陆23TCPSMTP简单邮件传送协议25TCPPOP3邮件接收110TCPhttp超文本传输协议80TCPhttpshttp+ssl443TCPFTP文本传输协议控制连接 21 数据连接20TCPDHCP动态主机配置协议67/68UDPSNMP简单网络管理协议UDP...

2021-08-07 15:32:36 163

原创 Requests Per Second

HBase UI中Requests Per Second:当前region server中每秒接收到的rpc请求数参考文章:Hbase源码分析:Hbase UI中Requests Per Second的具体含义

2021-07-21 14:33:23 342

原创 搜索引擎的发展变化

人工分类目录以雅虎为代表的,依靠人工编辑导航目录的方式来给用户提供服务的网站,类似于现在的hao123导航网站。文本分析时代利用爬虫主动去抓取互联网上的网站网页,使用信息检索模型来进行文本检索,从人工到自动化链接分析阶段在文本检索的基础上,对网页间的链接进行分析。计算网页的重要性!典型代表就是Google所提出的PageRank链接分析技术,通过链接分析对网页重要性进行筛选,再结合文本检索阶段中的相关性,使得搜索质量有了质的飞跃。例如:google,百度...

2021-07-15 20:42:50 181

原创 sx的书签

工作流任务调度系统:Apache DolphinScheduler

2021-07-14 20:14:37 72

转载 Java正则表达式过滤出字母、数字和中文

Java中过滤出字母、数字和中文的正则表达式过滤出字母的正则表达式[^(A-Za-z)]过滤出 数字 的正则表达式[^(0-9)]过滤出 中文 的正则表达式[^(\\u4e00-\\u9fa5)]过滤出字母、数字和中文的正则表达式[^(a-zA-Z0-9\\u4e00-\\u9fa5)]实例源码package com.you.dao; /** * @类名:FilterStr * @描述:正则表达式过滤数字、字母和中文 * @Author:游海东 * @date: 2014

2021-07-14 19:46:07 4808 1

原创 关闭防火墙解决Bad connect ack with firstBadLink错误

报错代码如下:21/07/14 14:02:01 INFO hdfs.DFSClient: Exception in createBlockOutputStreamjava.io.IOException: Bad connect ack with firstBadLink as 192.168.0.62:50010 at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.createBlockOutputStream(DFSOutpu

2021-07-14 15:05:28 579

原创 CDH添加新节点小记

CDH新增节点的问题记录

2021-07-08 17:08:29 933

原创 浅析字符编码的范围及之间的关系

由于要解决文档中的乱码,就查找了乱码产生的原因。乱码是因为解码方式和编码方式不一致导致的!!!如用UTF-8编码“中文”这个词,用ASCll来解码,会输出??,用GBK中就会输出乱码(看不懂的符号)。在此总结下字符的编码格式:ASCII 码ASCII 码规定了英语字符与二进制位之间的关系,使用一个字节(byte)进行存储。一个字节包含8个二进制位bit(00000000-11111111),可以存储256种状态。ASCII中一共规定了128个字符的编码,第一位统一为0。比如空格SPACE是3

2021-07-06 18:46:31 300

转载 Solr配置中文分词器IK Analyzer详解

参考大神的帖子,配置成功,顺便记录下IK Analyzer的配置过程!配置非常的简单,但是首先主要你的Solr版本是哪个,如果是3.x版本的用IKAnalyzer2012_u6.zip如果是4.x版本的用IK Analyzer 2012FF_hf1.zip,一定要对应上,要不然会配置失败。以下是详细步骤:1、下载IK Analyzer。下载地址为:http://code.google.com/p/ik-analyzer/downloads/list但是由于本国国情,需要翻墙才能下载,可以到以下页面下

2021-06-24 19:38:58 188

原创 Solr笔记

Solr版本的重大变化4.x的安装方式,会分发成一个war包部署在任何Servlet容器上,通常与tomcat配合使用5.x有个最大的改变。现在的Solr是一个(Standalone)独立的服务器从solr5.0开始,Solr不再分发成一个war包以部署在任何Servlet容器上。现在的Solr作为一个单独的Java应用服务器分发,包括在Unix或者Windows平台上使用的启动和停止脚本,以及一个安装脚本来设置生产环境下的Solr安装在之前的Solr版本中(Solr5之前),在创建core的时候,

2021-06-23 16:13:55 45

原创 nutch2.3.1+solr4.x创建搜索引擎心得01

少走弯路在CDH下安装的solr,要使用solrctl创建Core 生成位置:/var/lib/solr个人用户没有root权限,不能在公有目录下创建文件夹。该问题出现在创建Core的过程中复制nutch/conf/schema 到Core的conf目录下nutch2.3.1和solr不是覆盖schema.xml就能使用,和1.x版本不同,需要在nutch-site中添加indexer-solr插件!完成1,3,4。执行crawl seed crawlID solrCore 1 命令,直接将

2021-06-22 17:44:06 77

原创 IDEA中怎么去除黄色的下划线(提醒这段代码重复太多)

IDEA jdk版本选择 及黄线去除

2021-06-08 15:52:40 572

原创 notepad调整字体大小

notepad++怎么放大缩小字体?notepad++编程开发的时候,看代码很费劲,该怎么修改代码字体的大小呢?方法1:打开notepad++软件。在工具栏中就有放大字体和缩小字体的按钮(放大镜上一个加号),点击一次字体放大或缩小一个像素方法2:notepad++也支持键盘组合件来放大/缩小字体,其中放大的组合件事ctrl+鼠标滑轮上滚,缩小就是ctrl+鼠标滑轮下滚。这样看普通文本就很方便了...

2021-05-21 14:10:45 2107

原创 Java @Deprecated注解功能

由于对项目类进行优化,很多方法已经不使用了,但直接删除也不好,万一之后会再使用呢。所以使用了@Deprecated这个注解说明:@Deprecated 表示此方法已废弃、暂时可用,但以后此类或方法都不会再更新、后期可能会删除,建议不要调用此方法。用法:此注解可用于类上、方法上、属性上。通常在给定此注解后,应该在方法注释中同样说明:废弃此方法后的代替方法是哪个、处理原逻辑代替方案是什么 、本身不打算代替,而是直接清除的,则最好给出会清除此方法的具体代码版本号 。总结:因为在一个项目中,工程比较大

2021-05-20 17:20:59 203

原创 总结遇到的shell命令:$篇

总结遇到的shell命令:$篇echo ‘$?’ 查询上一条命令的执行结果,打印0为成功执行,打印其他为失败有关$的拓展:变量名含义$0shell或shell脚本的名字$*以一对双引号给出参数列表$@将各个参数分别加双引号返回$#参数的个数$_代表上一个命令的最后一个参数$$代表所在命令的PID$!代表最后执行的后台命令的PID$?代表上一个命令执行后的退出状态...

2021-05-14 16:59:38 140

原创 解决java.lang.NoClassDefFoundError错误的一种方案

NoClassDefFoundError错误发生的原因NoClassDefFoundError错误的发生,是因为Java虚拟机在编译时能找到合适的类,而在运行时不能找到合适的类导致的错误。例如在运行时我们想调用某个类的方法或者访问这个类的静态成员的时候,发现这个类不可用,此时Java虚拟机就会抛出NoClassDefFoundError错误。与ClassNotFoundException的不同在于,这个错误发生只在运行时需要加载对应的类不成功,而不是编译时发生。很多Java开发者很容易在这里把这两个错误搞

2021-04-30 16:15:23 5868 1

原创 java中split函数中的特殊字符

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar

2021-04-30 15:56:41 1241 1

IK Analyzer 2012FF_u1.rar

此版本适用于Solr4.x,IK 分词器 IK Analyzer 2012FF_hf1 Solr4.x

2021-06-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除