自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(209)
  • 资源 (4)
  • 收藏
  • 关注

原创 数据的标准化和归一化

我们使用sklearn内置的MinMaxScaler进行处理,可以看到处理之后最小值都变成了0,最大值都变成了1,这种缩放的副作用是标准差都非常小。前面我们已经学习了识别数据缺失值已经对缺失值进行处理的方法,但是KNN的准确率都不是很高,今天我们继续进行数据探索进一步增强机器学习流水线;现在我们对数据集的所有字段都进行z分数计算,然后通过直方图可以看到,横轴的数值分布在-2.5到7.5之间;在直方图中,让所有的列共享数据轴,可以看到所有的数据尺寸都是不一样的,有一些列已经无法显示图形了;

2023-12-05 06:44:47 150

原创 处理数据中的缺失值--填充缺失值

实际的训练过程中,是需要首先划分数据集,如果我们在应用算法之前直接对整个数据集填充值,我们就是在作弊,模型其实学不到任何模式。填充指的是利用现有知识/数据来确定缺失的数量值并填充的行为。如果我们直接使用0来填充缺失值,同样使用KNN模型得到的准确率是0.7357185298361768,有所降低的;我们使用列的均值进行填充之后,可以看到缺失值的行数为0,同时可以看到5行对应字段的值都是121.686763;可以看到所有的列都已经填充,sklearn的填充处理类确实减少了繁琐的填充工作;

2023-11-28 06:03:32 231

原创 处理数据中的缺失值--删除缺少值的行

处理缺失数据最简单的方式就是丢弃数据行,我们使用dropna方法进行处理,可以看到将近丢弃一半的数据;从机器学习的角度考虑,尽管数据都有值、很干净,但是我们没有利用尽可能多的数据,忽略了一半以上的观察值。使用处理过的数据训练scikit-learn的K最近邻(KNN,k-nearest neighbor)分类模型,可以看到最好的邻居数是7个,此时KNN模型的准确率是74.5%;替换所有的缺失字段,可以看到不同字段缺失值的情况是不一样的;通过以下可以看到各个字段的均值处理前后的大小。❏ 删除缺少值的行;

2023-11-27 06:29:00 276

原创 识别数据中的缺失值

通过数据的缺失值,我们可以更好地明白如何使用真实世界中的数据。分析数据并了解缺失的数据是什么至关重要,这样才可以决定下一步如何处理这些缺失值。查看onset_diabetes列的相关性数值,可以看到plasma_glucose_concentration是预测糖尿病的重要变量;通过以下统计数据中的各个字段的min值,可以看到很多列的最小值是0,可以这些字段使用0填充了确实字段;可以看到数据集中没有数据点是空的(缺失值);❏ unknown或Unknown(类别型)可以看到糖尿病的发病率是65%;

2023-11-24 09:14:16 92

原创 数据的4个等级

然而我们需要知道,虽然这些值是数,但每个数其实代表的是类别,所以该数据是定性的,更具体地说,是属于定序等级。定距及更高等级的一大好处是,我们可以使用散点图:在两个轴上绘制两列数据,将数据点可视化为图像中真正的点。在定距等级,数值数据不仅可以像定序等级的数据一样排序,而且值之间的差异也有意义。定类等级是数据的第一个等级,其结构最弱。直方图是条形图的“近亲”,用不同的桶包含不同的数据,对数据的频率进行可视化。除了可以将数据分为定量和定性的,数据还可以分为以下4个等级,每个等级都有不同的控制和数学操作等级;

2023-11-22 07:15:53 370

原创 定量数据和定性数据

Pandas认为,数据只有3个定量列:Step、Union Code和Extended Step(步进、工会代码和增强步进)。我们清理一下数据,移除工资前面的美元符号,保证数据类型正确。最值得注意的特征是一个定量列Biweekly High Rate(双周最高工资)和一个定性列Grade(工作种类);.info()可以了解数据的列信息以及每列非null的行数;定量数据本质上是数值,应该是衡量某样东西的数量。定性数据本质上是类别,应该是描述某样东西的性质。全部的数据列如下,其中既有定性列也有定量列;

2023-11-19 18:30:45 136

原创 Java之多线程的同步和死锁

我们可以通过在getInstance方法中使用synchronized添加同步代码块,同时进行双重的null检查避免无谓的锁占用;设计模式中的单例模式的懒汉方式会存在多线程的安全问题;多线程的同步可能会出现死锁;死锁的出现是由于发生死锁的两个线程持有彼此需要的锁资源,导致双方都无法执行只能等待;以下测试代码以构成一个商品的两个组件为例,组装商品我们可以从APart开始,也可以从BPart开始;除了使用synchronized之外,也可以使用JUC提供的Lock来实现线程的同步;

2023-07-11 21:36:42 169

原创 Java之使用synchronized解决多线程安全性问题

当多个线程并发访问某个Java对象(Object)时,无论系统如何调度这些线程,也无论这些线程将如何交替操作,这个对象都能表现出一致的、正确的行为,那么对这个对象的操作是线程安全的。如果这个对象表现出不一致的、错误的行为,那么对这个对象的操作不是线程安全的,发生了线程的安全问题。添加在方法前边时,其默认获得的锁对象跟具体的方法有关系,如果是实例方法则是this,如果是静态方法则是对应类的class对象;平时生活中的买票场景就是一个典型的线程安全的场景;

2023-07-04 07:31:12 172

原创 Java之thread常用成员

线程的yield(让步)操作的作用是让目前正在执行的线程放弃当前的执行,让出CPU的执行权限,使得CPU去执行其他的线程。处于让步状态的JVM层面的线程状态仍然是RUNNABLE状态,但是该线程所对应的操作系统层面的线程从状态上来说会从执行状态变成就绪状态。线程在yield时,线程放弃和重占CPU的时间是不确定的,可能是刚刚放弃CPU,马上又获得CPU执行权限,重新开始执行。调用join()方法的语句可以理解为合并点,合并的本质是:线程A需要在合并点等待,一直等到线程B执行完成,或者等待超时。

2023-06-28 08:33:15 108

原创 Ubuntu和MIUI时间显示秒数字

小米手机(MIUI13)要展示时间到分秒可以打开时间悬浮窗功能即可。Ubuntu(23.04)状态栏的时间显示秒,则需要执行以下命令。

2023-06-07 18:28:22 606

原创 Ubuntu开始菜单中的程序图标放置位置

可能放置在以下两个位置中的一个。.desktop文件的内容。

2023-06-07 18:19:07 317

原创 dpkg安装和删除软件

【代码】dpkg安装和删除软件。

2023-06-07 18:13:26 1941

原创 Linux之从进程角度来理解文件描述符

文件描述符是一个非负整数,而内核需要通过这个文件描述符才可以访问文件。当我们在系统中打开已有的文件或新建文件时,内核每次都会给特定的进程返回一个文件描述符,当进程需要对文件进行读或写操作时,都要依赖这个文件描述符进行。通过查看/proc/PID号/fd/目录下的文件,就可以查看每个进程拥有的所有文件描述符。我们touch一个文件,并将其文件描述符设置为10,并通过这个文件描述符来操作文件;当打开文件时系统内核就会为特定的进程自动创建对应的文件描述符。我们也可以手动定义文件描述符,并通过文件描述符操作文件;

2023-05-28 06:12:09 190

原创 解决xfreerdp在Ubuntu22.10无法退出全屏问题

最近升级了一下Ubuntu到22.10,然后发现xfreerdp链接上远程计算机后,无法通过快捷键退出全屏,我们可以在terminal命令中添加dynamic-resolution 参数即可;

2023-05-23 08:50:04 645

原创 解决Ubuntu 23.04无法登陆FortiClicent VPN的问题

升级到Ubuntu23.04之后FortiClient VPN无法登陆使用,经过测试摸索发现如下解决方案。

2023-05-23 08:47:28 654

原创 Java数组之冒泡排序

【代码】Java数组之冒泡排序。

2023-05-17 06:12:14 51

原创 Java数组之二分查找

【代码】Java数组之二分查找。

2023-05-17 06:09:32 49

原创 Java数组之线性查找

【代码】Java数组之线性查找。

2023-05-17 06:06:01 105

原创 Java数组之杨辉三角

【代码】Java数组之杨辉三角。

2023-05-14 12:58:08 91

原创 解决IntelliJ 中reload maven module 导致 Target bytecode Version重置

【代码】解决IntelliJ 中reload maven module 导致 Target bytecode Version重置。

2023-05-14 12:52:33 187

原创 解决IDEA中创建Maven项目慢的问题

通过idea创建maven项目的时候,需要等好长时间才能创建完毕,我摸索了很久,可以通过以下方式加快maven项目创建的速度。注意,是在settings.xml文件中结点中添加。

2023-05-14 12:39:33 407

原创 解决vscode控制台中文乱码问题

Ctrl + R输入intl.cpl命令,在弹出的框体中选择Admintrative标签,然后选择change system local,然后选中最下方的复选框 “Beta:Use Unicode UTF-8 for worldwide language support”,然后重启操作系统即可;我这里选择的是cmd.exe,既然输出中文乱码,那么肯定跟cmd.exe的编码有关系;使用visual studio code的terminal编译程序,输出的中文是乱码;查看当前控制台程序的编码格式。

2023-05-13 17:53:55 1457 1

原创 ZIP64压缩扩展的兼容性问题

ZIP64作为一个后来的扩展,虽然有很长的时间了,但是还是有一些操作系统或者开发语言的类库都不支持,从而会造成兼容性问题,最好是Zip64Option.AsNecessary选项,只有在必要的时候自动使用ZIP64位扩展;DotNetZip 是一个快速、免费的类库和工具集,用于处理 zip 文件。zip64 格式是标准 zip 格式的扩展,实际上消除了 zip 存档中文件大小和数量的限制。.NET提供了以下几个类来完成压缩功能,但是没有找到ZIP64的选项;二、.NET提供的ZIP压缩能力。

2023-03-21 13:32:05 610

原创 使用JsonTextReader提高Json.NET反序列化的性能

在服务器的文件系统上有一个业务生成的BigTable.json文件,其可能包含的JSON字符串很大,同时里边的集合会包含很多的记录;我们使用以下的代码来反序列化,虽然使用了异步的ReadAllTextAsync来读取文件,但是还是需要将整个的文件内容都读取到内存中,这样会极大的占用服务器内存,同时分配太多对象或分配非常大的对象会导致垃圾收集减慢甚至停止应用程序;通过以上分析,我们可以直接使用二进制的文件流来读取文件,并将它传递给JsonTextReader,这样就可以实现小片段的读取并序列化;

2023-02-24 08:27:09 247

原创 elasticsearch之使用正则表达式自定义分词逻辑

elasticsearch在索引和搜索之前都需要对输入的文本进行分词,elasticsearch提供的pattern analyzer使得我们可以通过正则表达式的简单方式来定义分隔符,从而达到自定义分词的处理逻辑;elasticsearch的Pattern Analyzer使用的Java Regular Expressions,只有了解Java中一些常用的正则表达式才能更好的自定义pattern analyzer;我们可以通过以下方式自定pattern analyzer,并设置分隔符为所有的空格符号;

2023-02-21 08:49:46 915

原创 elasticsearch之日期类型有点怪

通过以下代码可以看到,左边界的值会覆盖new MutableDateTime(1970, 1, 1, 0, 0, 0, 0, DateTimeZone.UTC)对应的位置的数字,右边界的值会覆盖ew MutableDateTime(1970, 1, 1, 23, 59, 59, 999, DateTimeZone.UTC)对应位置的数字;索引数据的时候,elasticsearch内部会基于UTC时间,将传入的数据转化为基于milliseconds-since-the-epoch的一个长整型数字;

2023-02-15 08:52:26 953

原创 elasticsearch之search template

elasticsearch提供了search template功能,其会在实际执行查询之前,对search template进行预处理并将参数填充到template中。我们新建id为search_template_test.match_name的search template,其主要是查询match 字段name;执行search template也支持使用profile来调试查看elasticsearch的查询执行情况;_search/template使用search template进行搜索;

2023-01-19 08:45:39 1637

原创 elasticsearch之exists查询

elastic search提供了exists查询,用以返回字段存在值的记录,默认情况下只有字段的值为null或者[]的时候,elasticsearch才会认为字段不存在;

2023-01-12 09:00:38 4721

原创 elasticsearch之单请求多查询

multi search返回的结果是responses数组,每个查询对应一个数组元素;有的时候我们需要同时执行多个查询,并且需要得到每个单独查询的搜索结果,elasticsearch提供了multi search此需求的支持;同时responses数组元素的顺序与查询是一 一对应的;每个查询可以通过自己的header设置查询执行的index,也可以是空的JSON对象,这是在URL中指定的index执行查询;五、multi search对search template的支持。查询查看已经索引的数据。

2023-01-05 18:23:50 1438

原创 elasticsearch查询之keyword字段的查询打分控制

match是elasticsearch提供的一个跟terms类似的查询,由于goods.id的type是keyword,所以需要给match指定一个查询时的analyzer,才能保证输入的几个id分开作为不同的查询;我们需要查询购买过某种商品的顾客,一般我们可以通过ui的业务逻辑得到需要筛选的一些商品的id,由于id字段是一个不需要分词的keyword字段,所以我们会直接使用term级别的查询;我们看下文档3的打分情况,每一个命中项的打分都是固定的1,最终的打分命中项的和;五、控制子查询的打分。...

2022-08-11 08:50:21 1534

原创 支持向量机之松弛因子与线性支持向量机

一、线性支持向量机解决的问题线性可分支持向量机只支持线性可分的训练数据,通过硬间隔最大化实现分类数据;如果训练数据不是线性可分的,我们就需要使用线性支持向量机的方法,去除其中的一些异常点,从而实现剩余样本点的线性可分;相应于硬间隔最大化,它称为软间隔最大化;二、线性支持向量机的数学模型为了弥补某些线性不可分样本点的间隔不足的问题,我们为每个样本点引入松弛变量 ξi≥0\xi_{i} \geq 0ξi​≥0,从而使得最终的间隔大于等于1故得到如下约束条件yi(w⋅xi+b)⩾1−ξiy_{i}\

2022-05-06 09:23:50 876

原创 支持向量机之线性可分向量机

一、支持向量机简介支持向量机(support vector machines,SVM)是一种二类分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机;支持向量机还包括核技巧,这使它成为实质上的非线性分类器。当训练数据线性可分时,通过硬间隔最大化(hard margin maximization),学习一个线性的分类器,即线性可分支持向量机,又称为硬间隔支持向量机;当训练数据近似线性可分时,通过软间隔最大化(soft margin maximization),也学习一个线

2022-04-28 10:14:18 781

原创 从模型复杂度角度来理解过拟合现象

一、什么是模型复杂度机器学习是通过学习训练集的数据从而得到具体的模型,最终达到预测未知数据的能力;这就涉及到模型对训练数据的拟合能力了;从数理统计的角度来看,不同的训练数据集会有不同的概率分布规律;只有我们的模型的具有表达训练集的数据分布规律的能力才能训练得到一个好的模型,而模型的这个能力就是模型复杂度;二、从泰勒中值定理看模型复杂度对于一些比较复杂的函数,为了便于计算和研究,往往希望将其用一些简单的函数来近似表达。多项式是最为简单的一类函数,它只要对自变量进行有限次的加、减、乘三种算术运算,就能求出

2022-04-26 08:36:52 1128

原创 拉格朗日乘数法,一种计算条件极值的方式

一、拉格朗日乘数法简介在日常的生产生活中,当我们要要安排生产生活计划的时候,常常会在现实物理资源约束的条件下,计算得到收益最大或者损失最小的计划; 像这种对自变量有附加条件的极值称为条件极值;拉格朗日乘数法是一种直接计算解决条件极值的方法;拉格朗日乘数法的定义如下:设有 f(x,y),φ(x,y)f(x, y), \varphi(x,y)f(x,y),φ(x,y) 两个函数,并且两者都有一阶连续偏导数,则做拉格朗日函数为F(x,y,λ)=f(x,y)+λφ(x,y)F(x, y, \lambda)

2022-04-19 09:28:46 8298

原创 朴素贝叶斯算法

一、从生活角度来理解朴素贝叶斯算法朴素贝叶斯算法是统计学味道最浓的一款算法,也是最能体现我们日常生活经验的算法;与我们读万卷书行万里路形成我们自己的生活经验类似,朴素贝叶斯算法也是基于收集的历史数据分析得到相关事情发生的原因,从而形成解决问题的模型;与我们面对未知的未来类似,基于自己的生活经验计算各种可能的情况,最终选择一个最大可能的方向进行努力 ,朴素贝叶斯算法也是基于学习的模型计算给定的输入属于各个分类的概率,并选择概率最大的分类作为结果;从我们出生开始,就在不断的进行学习,通过上学、不同的人生

2022-04-12 09:13:02 1150

原创 从查询重写角度理解elasticsearch的高亮原理

一、高亮的一些问题elasticsearch提供了三种高亮方式,前面我们已经简单的了解了elasticsearch的高亮原理; 高亮处理跟实际使用查询类型有十分紧密的关系,其中主要的一点就是muti term 查询的重写,例如wildcard、prefix等,由于查询本身和高亮都涉及到查询语句的重写,如果两者之间的重写机制不同,那么就可能会碰到以下情况相同的查询语句, 使用unified和fvh得到的高亮结果是不同的,甚至fvh Highlighter无任何高亮信息返回;二、数据环境elastics

2022-03-30 08:47:32 681

原创 从文件下载视角来理解Web API

一、问题源起从Web From过来的人应该会比较熟悉以下下载文件的代码;[HttpPost][Route("Download")]public void Download(){ HttpResponse response = HttpContext.Current.Response; response.Clear(); response.BufferOutput = true; response.AddHeader("Content-Type", "applicat

2022-03-28 08:31:37 185

原创 elasticsearch高亮之Highlight原理

一、highlight简介highlight是提升用户体验的重要手段,搜索引擎通过高亮突出命中关键字等方式,方便用户通过关键字周围的信息快速的确认是否是自己希望的结果;highlight功能通常包含以下三个主要的处理过程1.将字段文本拆分为小的片段;2.找出最相关的片段;3.高亮查询关键字;二、elasticsearch的highlight功能elasticsearch提供了专门的高亮请求参数highlight,返回的记过中也会包含对应的高亮信息;在查询语句中,我们要求对text字段进行高亮

2022-03-17 08:37:54 3442 1

原创 elasticsearch高亮之词项向量

一、什么是词项向量词项向量(term vector)是有elasticsearch在index document的时候产生,其包含对document解析过程中产生的分词的一些信息,例如分词在字段值中的位置、开始和结束的字符位置、分词的元数据payloads等;term vector是单独进行存储的,会额外多占用一杯的空间,所以elasticsearch默认情况下禁用词项向量,如果要启用,我们需要在字段的mapping中使用term_vector进行设置;二、term_vector的配置选项term

2022-03-15 07:31:28 2497 1

原创 决策树算法

决策树算法是一种通用的机器学习算法,既可以执行分类也可以执行回归任务,同时也是一种可以拟合复杂数据集的功能强大的算法;一、可视化决策树模型通过以下代码,我们使用iris数据集构建一个决策树模型,我们使用数据的后两个维度并设置决策树的最大深度为2,最后通过export出iris_tree.dot文件;DecisionTreeClassifier初始化中的random_state可以确保每次执行结果的不变性;from sklearn.datasets import load_irisfrom skle

2022-03-07 08:38:40 5346

ES2015规范

2016-05-02

童继龙的ERP顾问感悟.pdf

做ERP顾问已经有些时间了,自己感觉到ERP顾问的成长是需要时间及感悟的。ERP顾问的历程一路走来,感悟颇多,陆续写了十几篇顾问成长的内容,现在把这些内容整理出来,与朋友们分享。 目录: 一、 ERP顾问成长感悟 3 1. “怀才不遇”与“怀才不孕”怎么办? 3 2. 从王永庆的“一粒米”看顾问能力修炼 5 3. 当你是虾米时要长骨格 6 4. 顾问过度包装后未来会吃亏 7 5. 不擅表达也是怀才不遇的一个重要原因 9 6. 其貌不扬就不能做顾问? 12 7. 顾问要像刺客般“一击而中”? 14 8. 你能让你的客户“亢奋”起来吗? 15 9. 你是知识型顾问还是知道型顾问? 16 10. 客户永远是顾问最好的老师 18 11. 成为顾问的方法--“三多”加“六多” 20 12. 顾问的知识需要“畅享” 23 二、 七嘴八舌说ERP顾问 24 1. ERP咨询顾问的资历要多深? 24 2. ERP顾问值这个价吗?ERP顾问是怎么死的? 25 3. 做ERP顾问就只能抛妻弃子? 27 4. ERP售前人员的红布与黑饵 28 5. 网友观点:IT售前6式 31 6. IT售前应该小心的几类客户 33

2010-04-03

ext 手册234324

ext 手册42342额外日日日日日日日日日日日日日日日日日日日日日日日日日

2010-03-19

C 信息管理系统(文件操作)

C语言做的实现信息的添删改查,实现了文件的大部分操作!

2008-12-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除