- 博客(93)
- 资源 (15)
- 收藏
- 关注
原创 子集筛选(Select by Data Index)组件研究
本文介绍了Orange软件中的Select by Data Index组件(子集筛选组件)的功能与应用。该组件通过行标识匹配,可准确筛选同源但处理路径不同的数据子集,适用于特征工程数据对齐、多步骤分析数据衔接等场景。文中以Iris数据集为例,展示了从主成分分析结果中筛选样本并回溯原始特征的全过程,包括150个样本通过PCA降维后,在散点图中筛选3个样本并成功匹配原始数据的完整操作流程。实例文件已开源,为特征对齐等数据挖掘任务提供了实用解决方案。
2025-06-15 16:09:24
958
原创 扩展数据(Concatenate)组件研究
本文聚焦 Orange软件的 Concatenate 组件,介绍其在数据挖掘中用于纵向整合数据、增强实例数量的功能,适用于分段、分组、多端等多源同构数据整合场景。该组件有主数据和辅数据两种模式,辅数据模式下可选择变量并集或交集,主数据模式下能按主数据列名或位置匹配变量,文中通过股价数据实例展示了不同配置下的输出效果。
2025-06-02 15:40:14
943
原创 合并数据(Merge Data)组件研究
在数据挖掘领域,数据合并是预处理阶段的核心操作,通过特征补全、样本连接、特征拼接三种模式实现多源信息融合。特征补全以主数据为基准补充辅数据特征并保留主数据全样本,未匹配特征标记为缺失,从而丰富主数据的信息维度;样本连接通过交叉验证剔除多源数据中不匹配的样本,仅保留满足共同约束的高质量样本,确保融合数据的一致性;特征拼接则保留多源数据的所有样本,通过共享特征标识合并,未匹配特征标记为缺失以区分跨场景信息差异。本文详细介绍了Orange软件的Merge Data组件的数据合并功能。
2025-05-26 10:47:47
1184
原创 PaddleOCR模型ch_PP-OCRv3文本检测模型研究(二)颈部网络
分析了残注层RSELayer的内部结构,了解到卷归层和压发层是其内核;分析了颈部网络RSEFPN的四层金字塔结构,以及颈部网络与骨干网络的对接关系;做了简单的代码实验,将实战输出与图形描述进行了对应标注。
2024-12-12 17:22:01
1476
原创 PaddleOCR模型ch_PP-OCRv3文本检测模型研究(一)骨干网络
首先解释了卷归层ConvBNLayer、压发层SEModule、残差层ResidualUnit三个基本概念,接着分析了MobileNetV3的内部结构,最后通过python代码展示PaddleOCRv3文本检测神经网络的summary输出。
2024-12-10 17:04:54
1899
原创 PaddleOCR源码研究(三)TextRecognizer与TextClassifier类详解
详解文本识别类TextRecognizer与文本方向分类TextClassifier,并通过两个代码实验,说明两者单独使用与结合使用的典型过程。
2024-11-28 11:04:30
1329
原创 PaddleOCR核心源码研究(二)TextDetector类详解
PaddleOCR的文本检测类TextDetector详解,介绍__init__与__call__方法,并通过三个代码实验举例说明文本检测结果的应用。
2024-11-23 14:58:45
1617
原创 PPStructure核心源码研究(四)TextSystem类详解
本文详细介绍PPStructure的核心类TextSystem,通过代码示例展现OCR的基本用法。
2024-09-18 11:02:30
1030
原创 PPStructure核心源码研究(三)LayoutPredictor类详解
详述PP-Structure源码的核心类LayoutPredictor,介绍其主要使用方式。
2024-09-14 18:32:13
1141
原创 PPStructure核心源码研究(二)StructureSystem类详解
详细解释StructureSystem类的核心方法,并通过三个代码实践,展现主要应用场景。
2024-09-12 16:50:09
1695
转载 如何彻底解决Kettle无法连接MySQL8的缺陷?
一、背景在使用Kettle对数据进行处理时,最常见的操作莫过于关系数据库的使用,然而使用最新版本Kettle8常面临以下几个痛点:不支持MySQL8。MySQL是当前最流行的开源关系数据库,用户基数仅次于Oracle。由于具有更好的性能,目前很多系统都已经用上了最新版本MySQL8。比较遗憾的是Kettle并不支持该版本数据库的连接。 无法在同一转换/作业中同时使用相同数据库的不同版本驱动。因为Kettle将所有数据库驱动统一放在lib目录中,并由同一个类加载器进行加载,如果存在多个版本的驱动则.
2020-06-26 21:32:12
2011
转载 REST客户端步骤详解
REST客户端转换步骤可以消费RESTful服务。RESTful是一种网络应用程序的设计风格和开发方式,基于HTTP,可以使用XML格式定义或JSON格式定义。在该体系中Web服务被视为资源并且可以通过其URL进行标识。该步骤有常规、认证、SSL、标题、参数、矩阵参数六个标签页。常规标签页配置信息如图1所示:图1常规标签页配置信息下文详细解释各控件的含义:1、转换步骤名称:步骤的名称,在单一转换中,名称必须唯一。常规标签页为REST客户端资源输入以下连接信息:2、URL:指定请.
2020-06-12 08:24:54
537
转载 Excel输出步骤详解
Kettle中的Excel输出步骤是将输入流中的数据转换为Excel文件输出到指定路径中。该步骤有“文件”、“内容”、“格式”、“字段”四个标签页。“文件”标签页配置信息如图1所示。图1 “文件”标签页配置信息下文详细解释各控件的含义:1.转换步骤名称:步骤的名称,在单一转换中,名称必须唯一。2.文件名:指定Excel文件生成的路径。3.创建父目录:勾选后将根据“文件名称”中的路径自动创建父目录。4.启动时不创建文件:勾选后在转换开始时不会生成文件。5.扩展名:为生成文.
2020-06-11 15:01:06
2125
转载 转发CKettle免费用户征集
CKettle是中国通服工业互联网(大数据)研究院自研的一款跨平台、跨行业、高效、稳定且易扩展的数据交换产品,专注于数据融通与价值挖掘。本产品基于Kettle8.0开发,在保留原生Kettle强大数据集成功能的基础上,对客户端的功能和易用性等方面进行了增强与本地化适配,建立了完善的云端支撑体系,致力于打造全方位CKettle使用与交流生态圈。了解更多CKettle相关信息,请进入CKettle官方网站https://ckettle.ccsaii.com.cn。现征集CKettle第一批免费技术服务用户.
2020-05-15 09:33:48
446
原创 Java编程的实用技术
volatile修饰的变量,可以保证各个线程看到的是同一个值,但并不能保证其线程安全性。例如多个线程,并发对volatile变量进行数字运算,线程安全无法保证。也就是说,volatile可以保证可见性,但不能保证安全性。两种情况适合用volatile:1、运算结果不依赖变量的当前值,或者只有一个线程能够修改变量的值2、变量不需要与其他状态变量参与不变约束volatile还可以禁止指令重...
2018-07-18 10:52:52
398
原创 实用Java虚拟机参数
-Xmx50m 设置最大内存为50兆-Xms30m 设置最小内存为30兆-Xmn10m 设置年轻代内存大小为10兆,年轻代包括一个Eden和两个Survivor区。-XX:+HeapDumpOnOutOfMemoryError 在出现内存溢出异常(OOME)时自动生成转储文件,后缀名为hprof,路径为执行程序的所在路径。也可以通过-XX:HeapDumpPath指定路径。-XX:...
2018-07-11 15:14:45
735
原创 如何让用户上瘾?
触发:外部触发与内部触发。行动:追求快乐,逃避痛苦;追求希望,逃避恐惧;追求认同,逃避排斥。酬赏:社交酬赏(互动);猎物酬赏(获得资源或者信息);自我酬赏(操控感、成就感、终结感)投入:很高的发生频率与可感知的实用性。《上瘾-让用户养成使用习惯的四大产品逻辑》...
2018-04-25 16:23:53
337
原创 基于Eclipse搭建Kettle插件调试环境的两种方法
本文讲述基于Eclipse搭建Kettle插件调试环境的两种方法,并通过一个HelloKettle实例介绍插件开发的入门知识。
2017-12-08 09:35:08
2692
原创 Ubuntu使用笔记
新建终端:Ctrl + Alt + T挂载虚拟机共享文件夹: sudo mount -t vboxsf vm_share /home/erichoo/vm_host
2017-09-14 22:39:13
392
原创 LINUX下执行资源库中的指定job
kitchen.sh -rep=资源库名称 -user=资源库用户名 -pass=资源库密码 -dir=资源库目录名称 -job=作业名称 -level=日志级别kitchen.sh -rep=rep1 -user=admin -pass=admin -dir=/abc -job=jb1 -level=Basic
2017-08-24 22:35:42
1401
原创 DOCKER学习
三个核心概念:镜像Image:虚拟文件集合容器Container:运行态进程集合仓库Repository:镜像仓库运行容器:sudo docker run --name pg_8088 -e POSTGRES_PASSWORD=764275 -d -p 8088:5432 postgres:9.6-p参数将host机器的8088端口映射到容器的5432端口。列出容器:sudo docker ps ...
2017-08-04 13:46:00
407
原创 登录Hive
hive> select * from cmc_history_data limit 10;OK001_10_7_8498766789855 10 7 0.03 2017-07-28 17:13:30001_10_7_8498767853827 10 7 0.03 2017-07-28 16:55:46001_10_7_8
2017-08-03 08:02:44
2396
原创 OutOfMemoryError GC overhead limit exceeded
在Java虚拟机中增加参数:-XX:-UseGCOverheadLimit可以disable该功能
2017-07-31 15:23:10
463
原创 Kylin实例Cube实验
查询每周销售记录的数量:SELECT COUNT(*),B.WEEK_BEG_DT FROM KYLIN_SALES AS A INNER JOIN KYLIN_CAL_DT AS B ON A.PART_DT=B.CAL_DT GROUP BY B.WEEK_BEG_DT ORDER BY B.WEEK_BEG_DT查询每周的销售记录总数、价格均值、总价:SELECT C
2017-07-28 09:12:31
913
原创 华为P6安装Sygic
地图路径在哪里?/storage/emulated/0/Sygic/Mapsvat.ta.2017.01 Vaticanqat.ta.2017.01 Qatarche.ta.2017.01 Switzerland
2017-06-18 09:25:33
1172
原创 Java枚举变量的遍历与转换
package test;/** * 演示如何遍历所有枚举值以及字符串转为枚举 * @author hexy * */public class GetAllEnumValues { private enum Algorithm{FPGrowth,Apriori}; public static void main(String[] args) {
2017-06-02 08:04:26
815
原创 负载均衡
负载均衡的一个基本架构:1、DNS服务器,如果资金充足的话,建议使用BGP机房,2-3台DNS服务器均衡,通常使用bind软件。如果资金紧的话,可以购买专业的dns服务,比如国内的dnspod。2、CDN服务器,一开始如果想省事,可以买专业公司的服务,如chinacache,但随着发展成本会越来越高。自建的话,可能分别搭建,放电信、联通、移动等不同机房的服务器,通过dns做动态解析。超大网
2017-05-17 09:12:00
379
原创 git切换分支
hexy@hexy-PC MINGW64 /d/c3_git/emis/emis (master)$ git branch* masterhexy@hexy-PC MINGW64 /d/c3_git/emis/emis (master)$ git pullPassword authenticationPassword:Already up-to-date.
2017-05-16 08:08:37
541
原创 面向对象设计原则
面向对象类设计,或者说是面向对象设计,有五大原则(SOLID): Single Responsibility Principle 单一职责原则 Open Closed Principle 开闭原则 Liskov Substitution Principle 里氏替换原则 Interface Segregation Princ
2017-04-19 08:40:21
639
1
原创 导出所有DLL中的函数
新建bat文件,内容为:for /f "delims=" %%i in ('dir /b/a-d/s D:\temp\C3-EntranceGuardApp\C3-EntranceGuardApp\*.dll') do (echo %%i"C:\Program Files (x86)\Microsoft Visual Studio 11.0\VC\bin\x86_am
2017-01-11 17:02:52
782
The Elements of Statistical Learning
2016-07-24
Applying Use Case Driven Object Modeling with UML
2014-08-25
信息化项目软件开发费用测算模板
2016-05-18
Software Systems Architecture
2015-06-10
Object-Oriented Analysis and Design with Applications
2014-09-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅