自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 资源 (2)
  • 收藏
  • 关注

原创 flink-源码探索-集群启动-主节点启动-分析

背景:之前分析了flink的rpc,有了这个基础,可以了解flink的集群的主要工作机制,以及当中的设计思想,本次只看本地集群模式。分析目标:1、flink的集群启动脚本分析。2、Flink Standalone 主节点 StandaloneSessionClusterEntrypoint 启动源码分析ResourceManager 启动DispatcherRunner启动WebmonitorEndpoint启动...

2022-02-23 17:11:55 1459

原创 flink-源码探索-RPC-分析

flink rpc 分析笔记

2022-02-18 16:02:20 247

原创 Datawhale模型融合

模型融合类型方式: 1、简单加权融合: 回归(分类概率):算术平均融合,几何平均融合 分类:投票 综合:排序融合,log融合 2、stacking/blending 构建多层模型,并利用预测结果再拟合 3、boosti...

2020-04-04 20:24:10 286

原创 Datawale3建模与调参数

训练模型以及预测的一般流程:在模型的预测上面需要注意:模型选择: 1、依据在验证集上的效果选择 2、除了关注效果的均值,还要关注稳健性 3、还需考虑线上效果;可将线上效果视为一折数据参数选择: 1、不建议将精力放在参数调优上; 2、容易过拟合 大体的设置参数即可 应将精力重点放在特征工程; ...

2020-04-01 19:33:25 351

原创 Datawale2(数据特征处理)

摘要:经过了数据的探索分析,可以大概知道数据的分布情况,从而进行相应的处理。大体经验如下:step1:确定数据类别(数字特征或者分类特征)以及数据性质。#1、定性数据: #a)定类:按名称分类----->城市 这个可以用onehot进行编码 #b)定序:有序分类 ----->成绩。 学历 #这个是有序变量要用order#2、定量数据:描述...

2020-03-28 19:15:40 220

原创 DataWhale活动

本文只是大概记录一下数据挖掘的探索过程:train = pd.read_csv('./used_car_train_20200313/used_car_train_20200313.csv',delimiter=' ')test = pd.read_csv('./used_car_testA_20200313/used_car_testA_20200313.csv',delimiter=' ...

2020-03-24 21:57:19 144

原创 编辑距离 计算

简介:编辑距离(Edit Distance),是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大。在机器学习里面一般用word2vec或者神经网络来训练得到单词得相似度。简单理解:量化两个字符串的相似度。运用场景: 一般用于单词拼写检查。算法原理...

2019-04-18 00:37:39 3142 1

原创 Python matplot数据可视化

简介: 在数据挖掘项目初期,需要对数据进行探索性分析,这样方便对数据有一个大致的了解,其中最直观的方式就是对数据进行可视化。 可视化视图有哪些?   可视化图可以分为4个类别,分别是比较,联系,构成和分布。    1、比较:比较数据间的类别关系,或者是它们随着时间的变化趋势,比如折线图。    2、联系:查看两个变量及两个以上变量的关系,比如散点图。    3、构成:每个部...

2019-01-21 22:39:55 860

原创 机器学习--线性回归

线性回归属于回归问题,将线性回归大体分为以下几个类别:一元线性回归:          y=wx+b 多元线性回归           y=w(0)+w(1)x(1)+w(2)x(2)带正则项的线性回归          带核函数的线性回归:          回归模型:          学习模型(训练):已知数据(x,y)学习模型f使用模型(预测):已知数据的输入x,带入f求得y模型介绍:如果...

2018-05-02 17:51:26 360

原创 关于spark数据倾斜7种解决方式

1、使用Hive ETL预处理数据• 方案适用场景:如果导致数据倾斜的是Hive表。如果该Hive表中的数据本身很不均匀(比如某个key对应了100万数据,其他key才对应了10条数据),而且业务场景需要频繁使用Spark对Hive表执行某个分析操作,那么比较适合使用这种技术方案。• 方案实现思路:此时可以评估一下,是否可以通过Hive来进行数据预处理(即通过Hive ETL预

2017-04-26 21:27:16 468

原创 Apriori算法原理

算法常见:运用于推荐商品。关联规则:简单举例->市场购物篮分析的结果是一组指定商品之间关系模式的关联规则。• 一个典型的规则可以表述为: {花生酱,果冻} –> {面包}• 这个关联规则用通俗易懂的语言来表达就是:如果购买了花生酱和果冻,那么也很有可能会购买面包。支持度和置信度一个项集或者规则度量法的支持度是指其在数据

2017-04-24 21:33:41 1314

原创 jvm加载机制

类的加载过程:   定义:虚拟机把描述类的数据从Class文件加载到内存, 并对数据进行校验,转换解析和初始化,最终形成可以被虚拟机直接使用的java类型,这就是虚拟机的类加载机制。在java语言里,类型的加载,连接和初始化过程都是在程序运行期间完成的,这样虽然在类加载时会有一些性能开销,但是会为java应用程序提供高度的灵活性。java里天生可以动态扩展的语言特性就是依赖运行期动

2017-03-11 22:12:05 278

转载 BlockQueue队列<转>

高并发所处理的队列。

2016-12-30 10:57:33 284

原创 线性数据结构与节点数据结构增、删、查、修改 优劣介绍

1、线性数据类有那些?例如list的子类 Arriylist,Vector,等等底层是由数组进行的无限拓展的容器集合。 2、链表的数据类有那些? 例如:LinkedList,这样的链表 ,底层是有节点对象封装单个数据条目。首先先从增加功能来看:Arriylist的增加方法:    public boolean add(E

2016-07-24 15:59:42 333

原创 view中事件ontouch与ontouchEvent源码分析

看过一些书籍,也简单做了些,总结,有时候就会忘记,今天将它记录下来。废话不多说,进入正题:关于viewGroup的事件分发:先贴一端源码,@Overridepublic boolean dispatchTouchEvent(MotionEvent ev) { //关于下面这一段代码,我个人认为应该跟输入法相关的触摸事件 if (mInpu

2016-05-10 11:24:03 398

转载 android ---Drawable Mutations笔记

原文来自Android SDK文档中的 resources/articles/drawable-mutations.html在Android中有大量的图片加载,Android性能优化其加载过程,也就是说在每一个加载的drawable添加一个共享状态。虽然共享状态能够节约很多内存,但是同样也会带来对图片修改带来一些麻烦。Android在图片中添加了一个共享的状态图.如下:从代码上来看

2016-04-20 15:03:41 235

转载 (转)Android开发三大规范

来源地址:http://www.eoeandroid.com/forum.php?mod=viewthread&tid=899792&extra=page%3D1%26filter%3Dtypeid%26typeid%3D113&_dsign=11d0f3c4一、Android规范编码  1.ava代码中不出现中文,最多注释中可以出现中文,中文统一写在strings

2016-04-15 17:02:06 373

转载 Android中将View的内容保存为图像的方法

原理:创建一个新的Bitmap,然后再根据它来创建一个Canvas,最后调用View的draw方法将View画到Canvas上,这样得到的Bitmap就是我们想要的。public Bitmap createViewBitmap(View v) {      Bitmap bitmap = Bitmap.createBitmap(v.getWidth(), v.getHe

2016-04-12 15:53:56 241

转载 SparseArray替代HashMap来提高性能

转载地址:http://www.open-open.com/lib/view/open1402906434918.htmlSparseArray是 Android框架独有的类,在标准的JDK中不存在这个类。它要比 HashMap 节省内存,某些情况下比HashMap性能更好,按照官方问答的解释,主要是因为SparseArray不需要对key和value进行auto- boxing(

2016-03-31 10:10:04 186

原创 android控件框架介绍

在此之前,先了解一下android 的控件架构,  android中的每一个控件都会在界面上占得一块矩形的区域,而在android中,控件的大致被分为两类,即viewGroup控件和view控件,viewGroup作为父容器可以包含多个view控件,并管理view,这样也就是我们常称的控制树,上层控件负责下层子控件的测量与绘制,并传递交互事件。通常在Activity中使用findviewByI

2016-03-20 11:15:09 404

原创 Android fragment 生命周期 详解

android-fragment笔记

2016-03-17 09:36:39 440

原创 js垃圾收集

1、标记清除  javascript中最常用的垃圾收集方式是标记清除。当变量进入环境时,就将这个变量标记为“进入环境”,从逻辑上讲,永远不能释放进入环境的变量所占到的内存,因为只要执行流进入相应的环境,就可能会用到它们。而当变量离开环境时,则将其标记为“离开环境”。   可以使用任何方式来标记环境。比如可以通过翻转某个特殊的位来记录一个变量何时进入环境,或者使用一个“进入环境的”变量列表及

2016-03-11 14:57:43 409

原创 js 执行环境及作用域

执行环境是javascript中最为重要的一个概念,执行环境定义了变量或函数有权访问的其他数据,决定了他们各自的行为。     每个函数都有自己的执行环境。当执行流进入进入一个函数时,函数的环境就会被推入一个环境栈中,而在函数执行之后。栈将其环境弹出。将控制权返回给之前的执行环境。          demo 1函数changerColor()作用域链包含两个对象(其中定义着a

2016-03-11 14:26:35 324

二手车交易价格预测.ipynb

可视化探索的一个简单的demo,一个可视化的大概的过程,方便一些新手的学习。 可视化探索的一个简单的demo,一个可视化的大概的过程,方便一些新手的学习。 可视化探索的一个简单的demo,一个可视化的大概的过程,方便一些新手的学习。

2020-03-24

验证码识别

对登陆验证码的识别。内置一些java些的demo,供大家下载学习。

2018-07-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除