![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
文章平均质量分 79
PzySeere
这个作者很懒,什么都没留下…
展开
-
twitter sentiment analysis
二、数据预处理一开始还是导入需要用到的包#导包import numpy as npimport pandas as pdimport sysfrom gensim.models import word2vecimport osimport gensimfrom gensim.models.word2vec import LineSentence#读数据data = pd.read_csv('./data.csv')data数据集中,y是我们最后确定的新分类类...原创 2021-04-30 11:50:51 · 575 阅读 · 0 评论 -
利用k-means、jieba、word2vec对交通事故原因进行聚类分析
中文文本向量化 + 聚类分析一、背景因为这段时间正好在和朋友准备比赛,赛题大概是基于交通事故的事故描述,进行文本多分类。实现将数据库中已有的原因分类不明确的事故进行重分类,修复数据。也为未来交警判责提供参考信息。一直以来都没有真正做过nlp方向的建模,借此机会也把比赛过程记录一下,一方面分享给有需要的朋友,另一方面也可以在以后能够方便复习。也希望各位大佬可以指出不好的地方,让小弟...原创 2020-07-22 08:49:33 · 3331 阅读 · 7 评论 -
利用Pandas、Numpy对多数据表之间相互匹配并创建交通数据集
Series + DataFrame一、背景接着上篇文章,现在通过某些渠道拿到了事故数据,但是存在几个问题。如上图所示,分别有三个数据文件:data_ms、data_reason、reason_type三个文件的字段如下:如上述三表,第一个表是案情描述-编号、第二个表是编号-事故原因描述、第三个表是事故原因描述-事故原因新类别。因为存在不匹配的问题,就需要进行预处理...原创 2020-07-22 08:48:47 · 1548 阅读 · 0 评论 -
交通事故文本多分类——做一个快乐的调包侠
jieba+word2vec+GDBT+oneVsRestClassifier一、背景经过俩天的数据处理,现在勉强得到了1k+条事故描述-事故原因这种格式的数据,剩下的未处理的数据同组的小伙伴们还在加班加点的做,为了不浪费时间,今天就先搭个壳子出来,看看初步效果。二、数据预处理和之前俩篇文章一样,采取去停用词、分词、句子向量化等操作。#导包import numpy as n...原创 2020-07-22 08:50:07 · 648 阅读 · 3 评论 -
利用word2vec、textCNN、jieba对事故文本多分类及致因修复(三维向量)
中文分词 + 数据集三维向量化+ TextCNN一、背景经过几天的测试及模拟建模训练,尝试了机器学习中的一些常用模型,例如Lasso、LR、SVM、XGBoost、GBTD等,发现效果并不如人意,最好最好的结果也是刚刚超过60%的准确率。思考了一下原因,发现主要还是因为在传统机器学习模型中,输入的是一条一条的行向量,正如之前文章中用到的方式,将一个文本先分词,得到一个词组,在把词组中...原创 2020-07-22 08:51:09 · 1499 阅读 · 4 评论 -
基于协同半监督学习的交通事故文本分类
Keras、Numpy、Pandas、Sklearn一、背景前面所作工作:利用Pandas、Numpy对多数据表之间相互匹配并创建交通数据集交通事故文本多分类——做一个快乐的调包侠(传统机器学习)利用word2vec、textCNN、jieba对事故文本多分类及致因修复(三维向量)在之前的建模中,存在一个比较大的问题就是数据量太少,真正匹配出来有对应label的文本仅仅20...原创 2020-07-22 08:51:24 · 957 阅读 · 3 评论