时光入海流Zz-CSDN博客

原创老板电器维修数据AdaBoost

1 数据挖掘与预处理1.1数据背景高质量的产品不仅能很好地满足顾客对产品使用功能的需要，获得良好的使用体验，提升企业形象和商誉，同时能为企业减少售后维修成本，增加利润。燃气灶市场已成为继家电市场之后各大电器公司竞争的新战场。某电器公司的燃气灶产品销售额一直在国内处于领先地位，把产品质量视为重中之重，每年都要对其产品质量数据进行分析研究，以期不断完善，精益求精。1.2数据概况本次建模数据来源于12月电器公司燃气灶质量情况统计数据，记录到的燃气灶故障现象均为“打不着火”，其主要的数据基本统计概况如下：

2021-05-18 20:14:43 584 2

原创共享单车需求预测

第三章数据预处理随着社会经济的不断发展和出行需求的增多，共享单车已经成为每个人的必需品。同时，随着互联网的普及和发展，共享单车行业，这是一个重要的“共享经济”产业，已逐步进入了移动互联时代。移动互联对共享单车发展的推动作用越来越大。然而，随着单车的数量增加，社会面临的问题也日益增多。今天在中国，车辆的数量每天都在增加，随着车辆数量的增加，大气中的二氧化碳排放量也在增加。为了解决这个问题，中国需要自行车共享系统。随着自行车共享系统的出现，人们将被鼓励使用自行车进行短途旅行。由于这种交通将减少，在大气中有

2021-05-18 20:13:09 4663 8

原创基于RBF的半导体刻蚀机异常检测

第三章半导体刻蚀机数据预处理对半导体刻蚀机进行故障诊断，首先需要采集获取半导体刻蚀机刻蚀过程的数据，并对数据进行分析和处理工作。本论文的半导体刻蚀机原始数据来自于LAM9600等离子刻蚀机加工晶元时的运行状态数据。本章主要介绍半导体刻蚀机刻蚀过程数据前期的预处理工作，主要包括如下内容：半导体刻蚀机数据的分析、半导体刻蚀机故障数据的表现特征以及异常数据的提取，然后对半导体刻蚀机故障数据的提取和数据整合。通过数据预处理，得到了维数统一的故障数据集，为后面的分类设计和测试数据集的实验验证奠定基础。3.1半导

2021-05-18 20:12:21 1149 1

原创 Es简单操作以及部署到springboot（2020年7月）

以下内容的文字稿在家里电脑上，现将部分截图发出来，以防止后期要用到这块知识突然忘记。等下次回家，会重新整理的~Should 模糊匹配；must 必须匹配ES维护最小次元到文档ID的映射，如图通过logstash，运行配置好的mysql.conf，将mysql数据库同步至ElasticSearchGithub: 适合中文的分词器。默认分词器不能很好分割中文词组“他们很厉害”，默认：他，们，很，厉，害 Ik:他们，很厉害https://g

2020-10-29 10:31:22 251

原创【计算社会科学01】为何病菌屡屡将人类推向死神？人类该如何应对

“细胞与病菌，情仇交织三十亿年，像极了爱情。”前言（2图片转场 + 1“咬牙切齿”）翻开人类文明发展史，常常会找到一个个推动历史的代表人物。如“日心说”哥白尼。但我们常常忽略了另一只手——病菌。关于病菌，人们往往对它咬牙切齿，认为它是危害人类生命的重要祸害。但眼光拉远一些，大家会发现早在人类出现之前：细胞与病菌，已经爱恨情仇三十亿年，最终选择了共同进化。前言-目录（参考导图）历史上的病菌（1街角+ 1 牧师诊治 + 1文艺复兴 +1 香港鼠疫解剖）为了正确对待病菌，让我们先回到1347年的欧洲

2020-10-20 09:58:32 245 1

原创数据标签开发之SparkSQL

书中简介注意Tree和Rules的概念1）将SQL语句通过词法和语法解析生成未绑定的逻辑计划（包含UnresolvedRelation、Unresolved Function和Unresolved Attribute），然后在后续步骤中使用不同的Rule应用到该逻辑计划上；2） Analyzer使用Analyzer Rules，配合数据元数据（如Sessioncatalog或Hive Metastore等），完善未绑定的逻辑计划的属性而转换成绑定的逻辑计划。具体流程是先实例化一个Simple A

2020-08-03 09:17:54 330

原创大数据环境部署 Vagrant/ Git/ Xshell/ Docker/ Hive/ Spark

环境部署1.虚拟机Ubuntu测试：1.1 查看IP地址：ip addr1.2 虚拟机内部Ping www.baidu.com，观察丢包率1.2 Windows环境下，Ping 虚拟机系统网络，观察掉包率1.3 虚拟机环境中，选择下载源 aliyun“软件和更新”-“下载自”-“更多方式”-“aliyun”2. Vagrant官网-FindBoxes-Search Boxes-Vagrantfile/New2.1 安装Git-打开GitBash-导入New-开始下载-当目录生成下载

2020-08-03 09:11:55 405

原创 Hive实操：Sqoop/ Mysql/ hdfs /hadoop

Hive实操1.1 docker文件拷贝 docker cp 或通过docker cp –help查看用法：CONTAINER的ID:复制命令格式：1.2 Hive建表creat table student (id int, name string)nrow format delimited fields terminated by ‘\t’ ;select * from student本地数据，加载到hive的student表中：load data local inpath ‘

2020-08-03 09:09:38 278

原创用户画像入门简介

用户画像基础1.1 用户画像简介用户画像，即用户信息标签化，通过收集用户的社会属性、消费习惯、偏好特征等各个维度的数据，进而对用户或产品特征属性进行刻画，并对这些特征进行分析、统计，挖掘潜在价值信息，从而抽象出用户的信息全貌。一般企业中，数据应用体系的层级划分为：基础平台建设、报表与可视化、产品运营与分析、精细化运营工具以及战略决策。1.2 用户标签类型统计类标签：最基础的标签，如性别、年龄、城市、活跃度等属性。规则类标签：基于用户行为，并由数据人员和运营人员共同制定的规则产生。如定义“消费活跃

2020-08-03 08:22:14 756

原创 2019研究生数学建模D题总结-汽车工况构建

前言2019年研究生数学建模已经过去了，但最终成绩是三等奖，离理想目标还是有不少差距。今天是19年12月，特此总结比赛得失，并与一等奖作品进行对比，寻找差距。本人选择的是D题，内容如下：汽车行驶工况（Driving Cycle）又称车辆测试循环，是描述汽车行驶的速度时间曲线（如图 1、2，一般总时间在 1800 秒以内，但没有限制标准，图 1 总时间为 1180 秒，图 2 总时间为 1800 秒），体现汽车道路行驶的运动学特征，是汽车行业的一项重要的、共性基础技术，是车辆能耗/排放测试方法和

2020-06-18 11:36:47 4478

原创数据挖掘——航空公司客户价值分析（分析+建模）

前言本次建模项目是来自于《python数据分析与挖掘实战》的案例，是介绍航空公司客户价值的分析，书中给出了关于62988个客户的基本信息和在观测窗口内的消费积分等相关信息，其中包含了会员卡号、入会时间、性别、年龄、会员卡级别、在观测窗口内的飞行公里数、飞行时间等44个特征属性，并用到的聚类方法是K-Means方法。本文是为2019年数学建模做准备，在原文基础上，进行了部分改进，主要步骤如下：数据探索性分析——数据的分布情况数据预处理——缺失值和异常值分析与清理属性规约——构造有价值的属性数据变

2020-06-17 14:43:28 9676 3

原创 SpringBoot总结【注解，项目配置，Controller，RESTful API，数据库操作，事务】

1. 原理与优势SpringBoot是一个便捷开发框架，能很好地将一些常用的第三方依赖整合（原理：通过Maven子父工程的方式），简化XML配置，全部采用注解形式，内置Http服务器（Tomcat），最终以java应用程序进行执行。核心优势：1>无配置文件（纯Java）完全注解化+2> SpringBoot核心快速整合第三方框架原理:Maven继承依赖关系。SpringBoot的实现是由启动器和自动配置以及大量的注解来完成的。启动器是我们在pom文件中引入的依赖；自动配置是Spring

2020-05-29 14:25:12 1465

原创 Python爬虫总结（CSS，Xpath，JsonLoad；静态网页，JS加载，Ajax异步请求）

前言随着人类社会的高速发展，数据对各行各业的重要性，愈加重要。爬虫，也称为数据采集器，是指通过程序设计，机械化地对网络上的数据，进行批量爬取，以代替低效的人工获取信息的手段。1. 道德法律问题爬虫目前在法律上尚属灰色地段，但爬别的网站用于自己的商业化用途也可能存在着法律风险。非法抓取使用“新浪微博”用户信息被判赔200万元，这是国内的一条因爬虫被判败诉的新闻。所以各商业公司还是悠着点，特别是涉及隐私数据。大型的网站一般都会有robot.txt，这算是与爬虫者的一个协议。只要在robot.txt允许.

2020-05-22 22:12:10 1377

qq_42019366的博客