自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 工业软测量-基于时序性数据的回归问题

CNN orRNN(LSTM)一、背景这次项目是导师的一个课题,大概需求是在工厂内,有许多生产设备,其设备的产出率与利润直接挂钩。因此,保证设备稳定的高产率是节约成本、提高利润的重要工作。而通常管理设备、依照当前状态,实时调整电压、电流等各相关指数通常是由专业技术人员负责,培养一个专业调控人员的成本是很高的,因此就需要一个模型能够代替人工对设备进行实时相控以保证高产率。在本次项目里...

2020-07-22 08:51:54 1696 4

原创 基于协同半监督学习的交通事故文本分类

Keras、Numpy、Pandas、Sklearn一、背景前面所作工作:利用Pandas、Numpy对多数据表之间相互匹配并创建交通数据集交通事故文本多分类——做一个快乐的调包侠(传统机器学习)利用word2vec、textCNN、jieba对事故文本多分类及致因修复(三维向量)在之前的建模中,存在一个比较大的问题就是数据量太少,真正匹配出来有对应label的文本仅仅20...

2020-07-22 08:51:24 982 3

原创 利用word2vec、textCNN、jieba对事故文本多分类及致因修复(三维向量)

中文分词 + 数据集三维向量化+ TextCNN一、背景经过几天的测试及模拟建模训练,尝试了机器学习中的一些常用模型,例如Lasso、LR、SVM、XGBoost、GBTD等,发现效果并不如人意,最好最好的结果也是刚刚超过60%的准确率。思考了一下原因,发现主要还是因为在传统机器学习模型中,输入的是一条一条的行向量,正如之前文章中用到的方式,将一个文本先分词,得到一个词组,在把词组中...

2020-07-22 08:51:09 1557 4

原创 交通事故文本多分类——做一个快乐的调包侠

jieba+word2vec+GDBT+oneVsRestClassifier一、背景经过俩天的数据处理,现在勉强得到了1k+条事故描述-事故原因这种格式的数据,剩下的未处理的数据同组的小伙伴们还在加班加点的做,为了不浪费时间,今天就先搭个壳子出来,看看初步效果。二、数据预处理和之前俩篇文章一样,采取去停用词、分词、句子向量化等操作。#导包import numpy as n...

2020-07-22 08:50:07 663 3

原创 利用k-means、jieba、word2vec对交通事故原因进行聚类分析

中文文本向量化 + 聚类分析一、背景因为这段时间正好在和朋友准备比赛,赛题大概是基于交通事故的事故描述,进行文本多分类。实现将数据库中已有的原因分类不明确的事故进行重分类,修复数据。也为未来交警判责提供参考信息。一直以来都没有真正做过nlp方向的建模,借此机会也把比赛过程记录一下,一方面分享给有需要的朋友,另一方面也可以在以后能够方便复习。也希望各位大佬可以指出不好的地方,让小弟...

2020-07-22 08:49:33 3456 7

原创 利用Pandas、Numpy对多数据表之间相互匹配并创建交通数据集

Series + DataFrame一、背景接着上篇文章,现在通过某些渠道拿到了事故数据,但是存在几个问题。如上图所示,分别有三个数据文件:data_ms、data_reason、reason_type三个文件的字段如下:如上述三表,第一个表是案情描述-编号、第二个表是编号-事故原因描述、第三个表是事故原因描述-事故原因新类别。因为存在不匹配的问题,就需要进行预处理...

2020-07-22 08:48:47 1580

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除