自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(46)
  • 资源 (5)
  • 收藏
  • 关注

原创 Google在Nature上发表的关于量子计算的最新进展的论文(Quantum supremacy using a programmable superconducting processor 译)

Google在Nature上发表的关于量子计算的最新进展的论文(Quantum supremacy using a programmable superconducting processor 译) 附英文论文原文

2019-11-18 11:48:00 844

原创 什么样的代码是好代码?

关于什么是好代码,软件行业烂大街的名词一大堆,什么高内聚、低耦合、可复用、可扩展、健壮性等等。也有所谓设计6原则 —迪米特法则(最少知道原则) +SOLID :即Single Responsibility (单一职责),Open Close(开闭),Liskov Substitution(里氏替换),Interface Segregation(接口隔离),Dependenc...

2019-09-27 21:46:00 224

原创 Notepad++ "TAB转为空格" 或者 “空格转TAB"

今天提交代码,老大review后,要求将所有缩进,默认的TAB改为“4个空格”,记录下操作步骤:(1)设置按下图配置即可(“设置” --> "首选项“ --> "语言” -->勾选 “替换为空格”)(2)即时操作“Ctrl + A ”选中所有内容,编辑 --> 空白字符操作 --> “空格转TAB” 或者 “TAB转空格”,如下图:...

2022-04-13 15:23:00 5535

原创 执行yum报错:“-bash: /usr/bin/yum: /usr/bin/python3.7: bad interpreter: No such file or directory ”的解决方案...

今天升级公司产品,结果安装过程中要用到yum,结果yum命令执行报错:“-bash: /usr/bin/yum: /usr/bin/python3.7: bad interpreter: No such file or directory”查看python版本(which python),系统安装的是python3.6。看错误提示的意思,yum需要用pthon3.7作为解释器。故需要升级py...

2021-12-14 20:05:00 6562

原创 IDM(Internet Download Manager)—下载各类安装包(github代码、python包)、软件、视频、文档的神器,居家必备良药...

自从有了IDM (Internet Download Manager),不知迅雷、github加速器、镜像为何物。鸟枪换炮,过上了“他娘的意大利炮”的幸福生活【CoderBaby】。二营长,你他娘的意大利炮呢?好处暂且按下不表,切入正题。Internet Download Manager 是著名的国外多线程下载软件。比起迅雷,IDM更专注于下载,界面简洁,没有任何其他的多余功能、...

2020-12-14 17:57:00 2622 2

原创 python 通过pip freeze、dowload打离线包及自动安装【适用于保密的离线环境】

python的pip是其包管理工具,相当方便好用。本文只介绍pip 如何通过其freeze命令打离线包,及其离线包的安装脚本。这个知识点,特别适用于不适合连通互联网,设备需要物理隔绝,保密要求严格的客户环境。环境操作系统: Centos 7.7python 版本: 2.7客户网络环境: 离线研发网络环境:联网pip 安装(1)下载rpm包首先研发环境(联网),去 h...

2020-12-14 13:31:00 577

原创 IDEA 卡住半天,buid(编译)不动——解决办法(适用于maven和gradle)及定位思路...

【号外号外!】最终解决办法并不复杂,关键在于“遇见问题,怎么样层层分析,多条路径试错,最终解决问题的思路或者能力”——资深码农的核心竞争力之一背景今天结束完最近2个月的一个项目,开心鸭,IDEA切换代码到其它历史项目继续推进。咦,什么情况,原来编译好好的,这次怎么半天编译不动,超过5分钟——原本只要10多秒或者20多秒的,什么情况多路径尝试,层层递进,终至解决路径A...

2020-10-20 18:28:00 4042

原创 IDEA 卡住半天,buid(编译)不动——解决办法(适用于maven和gradle)及定位全过程...

【号外号外!】最终解决办法并不复杂,关键在于“遇见问题,怎么样层层分析,多条路径试错,最终解决问题的思路或者能力”——资深码农的核心竞争力之一背景今天结束完最近2个月的一个项目,开心鸭,IDEA切换代码到其它历史项目继续推进。咦,什么情况,原来编译好好的,这次怎么半天编译不动,超过5分钟——原本只要10多秒或者20多秒的,什么情况多路径尝试,层层递进,终至解决路径A...

2020-10-20 18:28:00 652

原创 Java基于POI实现excel任意多级联动下拉列表——支持从数据库查询出多级数据后直接生成【附源码】...

Excel相关知识点(1)名称管理器——Name Manager【CoderBaby】首先需要创建多个名称(包含key及value),作为下拉列表的数据源,供后续通过名称引用。可通过菜单:“公式”---“名称管理器”找到,如下图:(2)数据验证——DataValidation此处我们需要选List(序列),Source(来源)选项;可通过菜单:“数据”---“数据验证”...

2020-09-29 11:06:00 1605

原创 几种定时任务(Timer、TimerTask、ScheduledFuture)的退出—结合真实案例【JAVA并发】...

工作中常常会有定时任务的开发需求,特别是移动端。最近笔者正好有所涉及,鉴于此,结合开发中的案例说明一下几种定时任务的退出。需求说明:定时更新正在生成的文件大小和状态【进行中、失败、完成】,如果文件生成完成,则退出【CoderBaby】调度可以用Timer【调用schedule()或者scheduleAtFixedRate()方法实现】或者ScheduledExecutorServ...

2020-08-17 18:46:00 650

原创 Meow攻击删除不安全(开放的)的Elasticsearch(及MongoDB) 索引,建一堆以Meow结尾的奇奇怪怪的索引(如:m3egspncll-meow)...

07月29日,早上一来,照例先连接Elasticsearch查看日志【禁止转载,by @CoderBaby】,结果,咦,什么情况,相关索引被删除了(当天正在写入数据的索引,不能被删除),产生了一堆以Meow结尾的奇奇怪怪的索引,如下图:一阵紧张、懵逼,赶紧查看日志,发现如下问题:系统在远程连接并下载执行一个脚本,如下(慌张):[2020-07-28T14:02:02,540...

2020-08-05 11:55:00 1602 2

原创 初识Elastic search—附《Elasticsearch权威指南—官方guide的译文》

本文作为Elastic search系列的开篇之作,简要介绍其简要历史、安装及基本概念和核心模块。简史Elastic search基于Lucene(信息检索引擎,ES里一个index—索引,一个索引指向一个或者多个分片—shards,一个分片就是一个Lucene实例。Lucene的作者——Doug Cutting同是也是hadoop的作者)。ES的诞生于04年,Shay ...

2020-07-24 10:01:00 311

原创 MySQL 快速删除大量数据(千万级别)的几种实践方案——附源码

笔者最近工作中遇见一个性能瓶颈问题,MySQL表,每天大概新增776万条记录,存储周期为7天,超过7天的数据需要在新增记录前老化。连续运行9天以后,删除一天的数据大概需要3个半小时(环境:128G, 32核,4T硬盘),而这是不能接受的。当然如果要整个表删除,毋庸置疑用TRUNCATE TABLE就好。最初的方案(因为未预料到删除会如此慢),代码如下(最简单和朴素的方法):...

2020-07-07 20:56:00 2158

原创 Elasticsearch 通过Scroll遍历索引,构造pandas dataframe 【Python多进程实现】

首先,python 多线程不能充分利用多核CPU的计算资源(只能共用一个CPU),所以得用多进程。笔者从3.7亿数据的索引,取200多万的数据,从取数据到构造pandas dataframe总共大概用时14秒左右。每个分片用一个进程查询数据,最后拼接出完整的结果。由于返回的json数据量较大,每次100多万到200多万,如何快速根据json构造pandas 的dataframe是个问...

2020-06-29 17:08:00 573

原创 MySQL LOAD DATA INFILE—从文件(csv、txt)批量导入数据

最近做的项目,有个需求(从Elastic Search取数据,业务运算后),每次要向MySQL插入1300万条数据左右。最初用MySQL的executemany()一次插入10000条数据,统计的时间如下:如上,插入时间由于系统的IO变化,会有波动,最快在4秒左右。后改为"load data infile"大概,10万条数据平均1秒~1.5秒,实际的代码示例如下:qu...

2020-06-23 10:02:00 300

原创 MySQL LOAD DATA INFILE—批量从文件(csv、txt)导入数据

最近做的项目,有个需求(从Elastic Search取数据,业务运算后),每次要向MySQL插入1300万条数据左右。最初用MySQL的executemany()一次插入10000条数据,统计的时间如下:如上,插入时间由于系统的IO变化,会有波动,最快在4秒左右。后改为"load data infile"大概,10万条数据平均1秒~1.5秒,实际的代码示例如下:qu...

2020-06-22 20:48:00 647

原创 【Java】 NullPointerException、ArrayIndexOutOfBoundsException、ClassCastException、ArrayIndexOutOfBounds

今天工作中,临时Fix一个bug,一看日志“java.lang.ClassCastException: null” 相当懵逼,没有详细堆栈信息,这咋整。虽然根据上下文可以推测问题代码的大致位置,但不敢拍板啊。只好google找一下,在Stackoverflow上果然有解决办法【解决方法】 在java启动命令中添加“-XX:-OmitStackTraceInFastThrow”即可...

2020-03-30 17:00:00 359

原创 技术人“结构化思维”训练的一点想法和实践

"结构化思维”对于技术人员coding能力的升级至关重要,是一线互联网大厂升级为高工及技术专家的关键之一。“结构化思维”对于应对网上甚嚣尘上的“35岁中年危机”也是关键。好了,那么问题来了_ @by 辉哥(87年生人— 安全大佬,毕业于吉林大学,在日本闯荡多年,目前月入50万~60万,已实现财务自由)?1)什么是结构化思维?what isStructured i...

2020-01-13 09:33:00 363

原创 【自建gitlab服务器】gitlab内存持续增大,频繁出现502错误的解决办法

首先说明笔者的服务器环境,阿里云服务器:8G内存,2核。自从团队运维小伙伴搭建了gitlab之后,git push 代码时不时的就很卡,也经常出现 gitlab 反应超时——返回502错误,严重阻塞了团队项目的开发,伤心!转载请注明出处:https://www.cnblogs.com/NaughtyCat/p/gitlab-eat-too-much-memory-and-...

2020-01-08 10:13:00 712

原创 gitlab内存消耗大,频繁出现502错误的解决办法

首先说明笔者的服务器环境,阿里云服务器:8G内存,2核。自从团队运维小伙伴搭建了gitlab之后,git push 代码时不时的就很卡,也经常出现 gitlab 反应超时——返回502错误,严重阻塞了团队项目的开发,伤心!转载请注明出处:https://www.cnblogs.com/NaughtyCat/p/gitlab-eat-too-much-memory-and-res...

2020-01-08 10:13:00 422

原创 Tika结合Tesseract-OCR 实现光学汉字识别(简体、宋体的识别率百分之百)—附Java源码实现及真实测试数据和训练集下载地址...

OCR(Optical character recognition) —— 光学文字识别,是图像处理的一个重要分支,中文的识别具有一定挑战性,特别是手写体和草书的识别,是重要和热门的科学研究方向。可惜国内的科研院所,基本没有大量的高识别率的训练集—笔者联系过北京语言大学研究生一篇论文的作者,他们说有%90的正确识别率,结果只做了简单的2000字。真的是为了论文而论文。斯坦福大...

2019-12-26 10:02:00 1872

原创 Tika结合Tesseract-OCR 实现光学汉字识别(简体、宋体的识别率百分之百)—附Java源码、测试数据和训练集下载地址...

OCR(Optical character recognition) —— 光学字符识别,是图像处理的一个重要分支,中文的识别具有一定挑战性,特别是手写体和草书的识别,是重要和热门的科学研究方向。可惜国内的科研院所,基本没有几个高识别率的训练集——笔者联系过北京语言大学研究生一篇论文的作者,他们论文说有%90的正确识别率,结果只做了20个笔画简单的汉字(20/6753 = %0.3...

2019-12-26 10:02:00 641

原创 Tesseract-OCR 4.1.0 安装和使用— windows及CentOS

OCR(Optical character recognition) —— 光学文字识别,是图像处理的一个重要分支,中文的识别具有一定挑战性,特别是手写体和草书的识别,是重要和热门的科学研究方向截止笔者发文(2019.12.25),tesseract-ocr 最新发布的稳定版本是4.1.0. 而tesseract-ocr依赖于leptonica——最新稳定版本是1.78.0...

2019-12-26 09:38:00 1195

原创 记一次Elasticsearch OOM(内存溢出)的优化过程—基于segments force merge 和 store type 转为 hybridfs...

首先,说明笔者的机器环境(不结合环境谈解决方案都是耍流氓): cpu 32核,内存128G,非固态硬盘: RAID0 (4T * 6),单节点,数据量在700G到1800G,索引15亿~21亿。敖丙大人,在蘑菇街,可多集群分片,固态硬盘,比不起啊。转载请注明出处:https://www.cnblogs.com/NaughtyCat/p/elasticsearch-OOM-...

2019-12-16 10:14:00 323

原创 记一次Elasticsearch OOM的优化过程——基于segments force merge 和 store type 转为 niofs...

首选,说明笔者的机器环境(不结合环境谈解决方案都是耍流氓): cpu 32核,内存128G,非固态硬盘: RAID0 (4T * 6),单节点,数据量在700G到1800G,索引15亿~21亿。敖丙大人,在蘑菇街,可多集群分片,固态硬盘,比不起啊。转载请注明出处:https://www.cnblogs.com/NaughtyCat/p/elasticsearch-OOM-o...

2019-12-13 13:08:00 668 1

原创 ElasticSearch如何一次查询出全部数据——基于Scroll

ElasticSearch如何一次查询出全部数据——基于Scroll

2019-12-05 14:19:00 2185

原创 Java 大小端转换(基于ByteBuffer)

        图00Big-Endian(左)andlittle-endian(右)大小端的基础知识:小端 (little-endian):低位字节在前,高位字节在后。大端(Big-Endian),则反之。具体而言,就是为了说清楚,CPU架构中1字(word)的存储顺序。计算机内存中数据自然流动的顺序就是:低位先来,高位紧随其后JAVA中所有的二进制文件都是按大端...

2019-12-04 16:35:00 1170

原创 Elastic search集群新增节点(同一集群,同一物理机)

一开始,在电脑上同一个集群新增节点(node)怎么试也不成功,官网guide又语焉不详?集群健康值yellow(表示主分片全部可用,部分复制分片不可用)。关于集群和多节点,有什么好处呢?集群和多个节点,可以提高可用性,一个挂了,可从另外一个恢复,主节点挂了,会自动从剩余节点选举出一个主节点,并且当恢复主节点时,会自动拷贝主节点失效期间,新的更新数据;同时可以负载均衡,提高吞吐率(在多...

2019-11-12 10:37:00 309

原创 Linux常用命令及详细说明 — 结合工作(侧重性能监控,包括CPU、内存、IO、网络、磁盘等)...

(一)Linux监控的几个常用命令(对于服务器后端程序猿很重要,必须掌握):命令功能命令功能iostat统计CPU及网络、设备和分区IO的数据vmstat展示给定时间服务器的状态值(包括CPU使用率、内存使用状况、虚拟内存交换情况、IO读写情况),很常用free显示内存状况,包括空闲以及被使用的物理内存、交换内存以及...

2019-10-24 09:48:00 240

原创 navicat连接不上Linux服务器上的mysql的解决办法

一开始,心情是沉痛的,截图如下:折腾一番后,解决方案如下:首先确保 linux服务上mysql 的3306端口是对外开放的切换到目录:/etc/sysconfig下,编辑iptables,把这个拷贝进去“-A INPUT -p tcp -m tcp --dport 3306 -j ACCEPT”,效果如图:然后重启防火墙service ...

2019-10-23 11:19:00 854

原创 Git之rebase、merge和cherry pick的区别详解—面试常问

git flow 镇楼merge这个简单,初学者常用。比如主分支是Dev,最新版本是01。然后小明基于此,搞了个feature 分支A,业务:打酱油然后在上面多次提交,完成功能迭代开发,如A1 ---> A2 ---> A3Dev 分支 merge A branch,最后Dev 分支的历史log就变成: Dev01 ---> A1...

2019-09-18 18:50:00 901

原创 阿里《JAVA实习生入职测试题—2019最新》之答案详解(连载一)

力争清晰完整准确1、String类为什么是final的首先分析String的源码:public final class String implements java.io.Serializable, Comparable<String>, CharSequence { /** The value is used for character ...

2019-09-13 10:26:00 158

原创 技术语言框架学习方法论

最近读李鸿章的文章——《致三弟》《谕侄》,有感。先摘部分原文如下:  “《朱子家训》内,有子孙虽愚,经书不可不读。兄弟亦然。兄少时从徐明经游,常告读经之法:穷经必专一经,不可范骛;读经研寻义理为本,考据名物为末;读经有一“耐”字诀,一句不通,不看下句;今日不通,明日再读;今年不精,明年再读。此所谓耐也。弟亦不妨照此行之。经学之道,不患不精 ”                ...

2019-09-13 10:15:00 185

原创 阿里《JAVA实习生入职测试题—2019最新》之答案详解(连载二)

阿里《JAVA实习生入职测试题—2019最新》之答案详解(连载二)

2019-08-29 09:58:00 206

原创 常用Http status code 如何记

一直记不住http常用的status code,最近思考可以这样想。http无非就是客户端和服务端之间请求连接交互嘛。结果要么成功,要么失败。请求过程中,临时状态可以提示信息 -- Informational 1xx,成功了 --Successful 2xx失败了,或者客户端错误 -- Client Error 4xx,或者服务端错误 --Server Error 5xx...

2019-08-27 21:03:00 224

原创 单例模式—四种写法详解

单例定义:一个类只有一个实例,并提供一个全局访问点。巧妙利用了编程语言的一些语法规则:构造函数private, 然后提供一个public的方法返回类的一个实例;又方法和返回的类的实例都是static类型,所以只能被类所拥有,而不能被实例化类的对象拥有。这样一个类就只能有一个实例了。最简单的写法(非线程安全,有叫它“懒汉式”的)public class Sin...

2019-08-26 22:32:00 146

原创 stackoverflow 打开缓慢的解决办法(不用FQ,不用装插件)

为什么慢?GFW屏蔽了google, 而stack overflow上用了一个js脚本,此脚本在谷歌服务器上。解决思路,就是让浏览器在本地加载此js脚本。访问速度直接从1.4min变到2s.问题分析stackoverflow js脚本加载出错截图如下:解决办法1)下载jquery.min.js并配置本地webserver下载到http://www.phpclasses.or...

2019-06-21 09:22:00 222

原创 WPF中查看PDF文件 - 基于开源的MoonPdfPanel (无需安装任何PDF阅读器)问题汇总

致敬Yang-Fei—有一个简单的用法示例:http://www.cnblogs.com/yang-fei/p/4885570.html。写MoonPdfPanel的哥们关于这个开源软件的实现介绍:https://www.codeproject.com/articles/579878/moonpdfpanel-a-wpf-based-pdf-viewer-control...

2017-05-11 13:01:00 914

原创 动态生成RDLC报表

前段时间,做了RDLC报表,主要是三块功能:1、从DataGrid提取(包括最新的增删改)数据,自动生成对应的RDLC报表文件(以流的形式驻存在内存中),用ReportViewer类来展示、打印、排版、预览、分页  提供一个提取任意控件数据的通用接口,然后拼接成DataTable这种网状的格子。DataGrid里修改、增加、删除等数据变动,立即同步更新到报表2、给一个简...

2016-11-06 21:08:00 347

原创 Windows 64位操作系统和32位操作系统在注册表上的有一点不一样

Windows64位操作系统为提供对32位应用程序的兼容,在“C:\Windows\SysWOW64”目录下保留了很多32位的工具(如CMD.exe是32位的)。在Windows64位操作系统上跑三十二位应用程序,操作注册表,搜素目录时,微软通过反射(Reflector),会将“\\SOFTWARE\\Microsoft\\Windows\\CurrentVersion\\Unins...

2016-08-07 20:26:00 156

mysql 5.7 官方详细文档

Mysql 5.7 官方 详细文档, 包括性能优化,基本概念,底层原理 英文版 高清pdf 非常好用

2020-08-11

IPD教材(华为产品持续集成的管理流程)

Integrated Product Developmen(产品持续集成)——华为的管理流程(内部资料),华为花大价钱从IBM引入的,中高层管理人员必须学习和考核

2019-11-28

The C# Programming Language pdf

经典的关于C#的书籍,不过是英文的完整版哈,希望对大家有所帮助

2011-05-26

浙大吉林大学上海交大中山大学四校ACM模版

好的模版对于搞ACM的人的重要性不言而喻,这四校的模版很有代表性

2011-03-06

HDU+2000-2099+解题报告.zip

杭电OnlineJudge 200-2099的解题报告

2011-02-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除