盡盡
码龄8年
  • 1,204,616
    被访问
  • 118
    原创
  • 1,167,728
    排名
  • 805
    粉丝
  • 10
    铁粉
关注
提问 私信
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2014-10-19
博客简介:

随笔记

博客描述:
风吹杨柳稀,世间尽繁华
查看详细资料
个人成就
  • 获得1,066次点赞
  • 内容获得151次评论
  • 获得4,817次收藏
创作历程
  • 1篇
    2021年
  • 9篇
    2020年
  • 31篇
    2019年
  • 78篇
    2018年
成就勋章
TA的专栏
  • 算法案例
    3篇
  • 面试
    7篇
  • Oracle
    2篇
  • Spring Boot整理
    12篇
  • Java基础知识
    18篇
  • Linux的基本操作
    11篇
  • Java web开发
    6篇
  • mybatis框架
    7篇
  • spring框架
    4篇
  • 设计分析
    4篇
  • 项目构建工具
    2篇
  • 流式计算
    2篇
  • Scala系列
    5篇
  • dubbo笔记
    2篇
  • zookeeper框架
    2篇
  • docker教程
    9篇
  • redis系列
    8篇
  • spring mvc框架
    3篇
  • struts2
    1篇
  • 数学基础
  • spring security
    6篇
  • 计算机算法
  • 报错中心
    2篇
  • 精选
    1篇
兴趣领域 设置
  • 大数据
    hadoophivespark
  • 最近
  • 文章
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

数据预处理的分箱操作

数据分箱介绍我们在建立模型前,一般需要对特征变量进行离散化,特征离散化后,模型会更稳定,降低模型过拟合的风险。尤其是采用 logsitic 建立评分卡模型时,必须对连续变量进行离散化。而特征离散化处理通常采用的就是分箱法,数据分箱(也称为离散分箱或分段)是一种数据预处理技术,用于减少次要观察误差的影响,提高泛化性。数据分箱又分为有监督分箱和无监督分箱,是否使用标签进行离散化(分箱)决定了有监督还是无监督的离散化方法。知识点无监督分箱split 分箱merge 分箱无监督分箱这里为了
原创
发布博客 2021.07.18 ·
1159 阅读 ·
0 点赞 ·
1 评论

对COVID-19论文进行自动分类——文献聚合分类实现方案

概述实现步骤:使用自然语言处理(NLP)从每个文档的正文中解析文本。使用术语频率-逆文档频率(TF-IDF)将每个文档实例????????转换为特征向量 feature。使用 t 分布随机近邻嵌入(t-SNE)对每个特征向量进行降维,将相似的文章聚集在二维平面 ????1 中。使用主成分分析(PCA)将数据的维数投影到多个维,这些维将保持 0.95 的方差,同时消除嵌入 ????2 时的噪声和离群值。在 ????2 上应用 k-means 聚类,其中????为 10,以标记 ????1 上的
原创
发布博客 2020.10.26 ·
2145 阅读 ·
1 点赞 ·
5 评论

使用ARIMA进行股票预测

一、ARIMA介绍1、简介 ARIMA模型的全称叫做自回归移动平均模型,全称是(ARIMA, Autoregressive Integrated Moving Average Model)。是统计模型(statistic model)中最常见的一种用来进行时间序列预测的模型。模型十分简单,只需要内生变量而不需要借助其他外生变量。2、模型介绍1.自回归模型(AR) 描述当前值与历史值之间的关系,用变量自身的历史时间数据对自身进行预测。自回归模型必须满足平稳性的...
原创
发布博客 2020.08.05 ·
7392 阅读 ·
5 点赞 ·
2 评论

分库分表面试准备

一、基本说明 说实话,对于一个QPS比较大的系统来说,它的瓶颈主要还是要落在数据库上。像我们之前说了一堆什么消息队列、缓存、什么乱七八糟的,之所以引入这么多一大堆复杂的东西,说白了,还是因为数据库本身支撑不了这么大的数据量,给数据库减压。 当然,这些还不够,我们还是要想办法提高数据库的读写能力,所以分库分表就很重要了。(1)为什么要分库分表(设计高并发系统的...
原创
发布博客 2020.02.25 ·
1316 阅读 ·
5 点赞 ·
1 评论

分布式常用组件面试准备

一、基本说明上一节已经讲了分布式系统的常见面试题,但是玩过分布式的应该都知道,你一个分布式架构光靠什么dubbo或者spring cloud等是玩不通的。最起码分布式锁啊,分布式事务啊,分布式session啊,,,这些你总要考虑吧?你们刚才在聊的面试topic,是分布式系统,他其实已经跟你聊完了spring cloud以及相关的一些问题,确认,你现在分布式服务框架,rpc框架,基本都有一些...
原创
发布博客 2020.02.25 ·
1413 阅读 ·
1 点赞 ·
0 评论

分布式系统面试准备

一、基本说明 我有一些同学,主要是做传统行业,外包项目,技术一直都搞的比较简单。共同的一个问题,就是都没怎么搞过分布式系统,现在互联网公司,一般都是做分布式的系统。当然了,大家都不是做底层的分布式系统,比如分布式存储系统,hadoop hdfs,分布式计算系统,hadoop mapreduce,spark,分布式流式计算系统,storm。 分布式业务系统,把原来...
原创
发布博客 2020.02.25 ·
2059 阅读 ·
2 点赞 ·
0 评论

缓存面试准备

一、基本说明说到缓存,可能大家首先想到的就是redis了,这也是目前业内使用的最广泛、最普遍的分布式缓存架构了。关于这一块的问题,互联网公司必问,要是你连缓存都不太清楚,那确实比较尴尬。你说你不会消息队列,或者你说你没接触过搜索引擎还情有可原,但是你要是说你不懂redis,基本上就拜拜了~~二、缓存的应用1、面试题在项目中缓存是如何使用的?缓存如果使用不当会造成什么后果?2、面...
原创
发布博客 2020.02.25 ·
541 阅读 ·
1 点赞 ·
0 评论

搜索引擎面试准备

一、基本说明业内目前来说事实上的一个标准,就是分布式搜索引擎一般大家都用elasticsearch和solr,但是确实,这两年大家一般都用更加易用的es。关于这一块的内容,面试官可能会怎么问?(1)es的分布式架构原理能说一下么(es是如何实现分布式的啊)?(2)es写入数据的工作原理是什么啊?es查询数据的工作原理是什么啊?(3)es在数据量很大的情况下(数十亿级别)如何提高查...
原创
发布博客 2020.02.25 ·
1266 阅读 ·
0 点赞 ·
0 评论

消息队列面试准备

一、基本说明面试官:你好候选人:你好(大家寒暄一下。。。)(面试官在你的简历上面看到了,呦,有个亮点,就是你在项目里用过MQ,比如说你用过ActiveMQ)面试官:你在系统里用过消息队列吗?(面试官在随和的语气中展开了面试)候选人:用过的(此时感觉没啥)面试官:那你说一下你们在项目里是怎么用消息队列的?候选人:巴拉巴拉,我们啥啥系统发送个啥啥消息到队列...
原创
发布博客 2020.02.25 ·
1013 阅读 ·
9 点赞 ·
3 评论

开篇

一、引言刚好今年因为这个传染病,在家也出不去,然后自己也可能年后从新找工作(能活到那时候的话~~),所以整理一下面试可能会问到的问题,算是临阵磨枪吧。废话不多说,先看一个职位jd,如下:上面是在拉钩随便找的一个职位,你现在去随便找个职位jd,起码都有这些要素,java基本功是起码的,那些开源框架也是起码的(前4条),但是这几年跟前几年不一样的一点在于,现在招聘java,一般都会加一...
原创
发布博客 2020.02.25 ·
450 阅读 ·
1 点赞 ·
0 评论

记一次HikariPool-1 - Connection is not available, request timed out after 60000ms异常排查过程

前言 前几天把spring boot从1.5升级到2.X之后,项目出了一堆问题,然后调了几天bug。最后好不容易能正常打包运行了,周五晚上在家里又收到信息,服务器挂了!!!好吧,看下日志:org.springframework.dao.DataAccessResourceFailureException: Unable to acquire JDBC Connection; ne...
原创
发布博客 2019.12.09 ·
22353 阅读 ·
14 点赞 ·
6 评论

Linux的基本操作——查看系统资源占用

1、总体内存占用的查看命令:free (1) free命令默认是以kb为单位显示的,可以用free -m 用Mb单位来显示。 (2) Mem行 : total = used + free 其中buffers和cached虽然计算在used内, 但其实为可用内存。 (3) Mem下一行:used为真实已占内存,free为真实可用内存。 (4)Swap:内存交...
原创
发布博客 2019.11.07 ·
806 阅读 ·
1 点赞 ·
0 评论

redis系列——生产环境Redis集群详解(六)

一、基本介绍 在主从架构中我们知道,每个master node都可以挂载多个slave node。但是每个slave的数据和master中的数据是一致的,如果我们想要在redis中存放更多的数据,就需要redis cluster了。如果你的数据量很少,主要是承载高并发高性能的场景,比如你的缓存一般就几个G,单机足够了。一个mater,多个slave,要几个slave跟你的要求的读...
原创
发布博客 2019.10.24 ·
2798 阅读 ·
4 点赞 ·
0 评论

redis系列——主从复制(五)

一、基本介绍 持久化保证了即使redis服务重启也不会丢失数据,因为redis服务重启后会将硬盘上持久化的数据恢复到内存中,但是当redis服务器的硬盘损坏了可能会导致数据丢失,如果通过redis的主从复制机制就可以避免这种单点故障,如下图:说明:主redis中的数据有两个副本(replication)即从redis1和从redis2,即使一台redis服务器宕...
原创
发布博客 2019.10.12 ·
607 阅读 ·
2 点赞 ·
2 评论

spring security——Spring Social简介(五)

一、简介 关于OAuth可以参考《理解OAuth 2.0》中的进行理解,这里的Spring Social就是一个遵循oauth协议的框架,所以可以用它来做第三方的登录。那么spring security 与 oath social是什么关系呢?没关系! 我们知道在spring security中被认定为认证成功的标志是根据用户信息构建Authenticatio...
原创
发布博客 2019.10.09 ·
2762 阅读 ·
0 点赞 ·
0 评论

docker教程——Dockerfile 定制镜像(六)

一、镜像制定 从刚才的 docker commit 的学习中,我们可以了解到,镜像的定制实际上就是定制每一层所添加的配置、文件。如果我们可以把每一层修改、安装、构建、操作的命令都写入一个脚本,用这个脚本来构建、定制镜像,那么之前提及的无法重复的问题、镜像构建透明性的问题、体积的问题就都会解决。这个脚本就是 Dockerfile。 Dockerfile 是一个文本...
原创
发布博客 2019.09.29 ·
739 阅读 ·
0 点赞 ·
0 评论

redis系列——企业级持久化方案(四)

一、基本介绍 我们知道对于一个企业级的redis架构来说,持久化是不可减少的。持久化主要是做灾难恢复,数据恢复,也可以归类到高可用的一个环节里面去。比如你redis整个挂了,然后redis就不可用了,你要做的事情是让redis变得可用,尽快变得可用。重启redis,尽快让它对外提供服务,但是就像上一讲说,如果你没做数据备份,这个时候redis启动了,也不可用啊,数据都没了。很可能...
原创
发布博客 2019.09.29 ·
289 阅读 ·
0 点赞 ·
0 评论

redis系列——Redis的客户端连接(二)

一、Redis自带的客户端 客户端启动命令为:./redis-cli -h 127.0.0.1 -p 6379-h:指定访问的redis服务器的ip地址 -p:指定访问的redis服务器的port端口 -a:指定访问的redis服务器的密码口令此外还可以缩写成:./redis-cli,使用默认配置,默认的ip【127.0.0.1】,默认的port【6379】。关闭方...
原创
发布博客 2019.09.25 ·
227 阅读 ·
0 点赞 ·
0 评论

Oracle——SQL语言(二)

一、基本介绍1、分类数据查询语言DQL:select 数据操纵语言DML:insert,update,delete 事务控制语言TCL:commit,rollback 数据控制语言DCL:grant,revoke 数据定义语言DDL:create,alter2、数据类型字符串 char,定长 varchar2,变长数字 number(m,n)日期...
原创
发布博客 2019.09.16 ·
166 阅读 ·
0 点赞 ·
0 评论
加载更多