qq_43012160-CSDN博客

原创再谈Seq2Seq和Attention

再谈Seq2Seq和Attention之前做NLP的时候发过一篇Seq2Seq和Attention的博客，其实他Seq2Seq的代码写的是有些问题的。真正的Seq2Seq应该怎么写把我最近做交通流的一个Seq2Seq放上来，输入是[batch,timelags,feature_num]。转换到NLP里就是[batch,sentence_length,feature_num]。# 训练模型# ---层定义---x = Input(shape=(None, feature_num,))enc_L

2020-10-13 21:17:36 294 2

原创 2020年中国海洋大学夏令营记录

2020年中国海洋大学夏令营记录很久没更新了，之前在参加交科赛的大数据主题竞赛，做的是短时交通流量预测。可惜主办方不太给力，国赛到现在没打，所以这一块的东西也不太方便多说。7月参加了一下海大的夏令营，拿了学硕的优营，记录一下好了。可选任务海大最开始布置了一个读论文写报告的可选任务，分好几个主题，最后我没抢到深度学习的，就抢了一个操作系统的，讲的是加锁策略的优化。这个虽然是可选的但我觉得还是做一下比较好，方向对口了你能好好录个视频讲一下你对自己方向的理解。不对口正好展示一下你的学习能力。机试机试4

2020-08-30 10:48:06 1658 1

原创流量预测中的数据分布问题

我们知道机器学习领域中，投入模型的数据具有一个好的数学分布（主要是高斯分布）无论是对于数据的清洗预处理还是对于模型的学习都有着非常大的作用。但是现实问题中的数据一般不是高斯分布的，所以怎样将偏态分布的数据转换为正态分布的数据就很值得研究了。今天就结合我最近遇到的一个问题讲一下log1p函数及其变形。问题最近在做流量预测的时候，整理完训练集的数据发现长这样：也可以理解，毕竟不管是网页流量...

2020-02-17 14:08:09 1259

原创遗传算法、DBN、ResNet与小波神经网络

遗传算法、DBN、ResNet与小波神经网络遗传算法一般神经网络的权重调整都是通过BP来实现的，其实也可以不通过BP实现，比如通过遗传算法。比如现在有一层神经网络，他的权重是(X1,X2,X3).遗传算法即生成多个同样的网络模型，每次取效果比较好的几个，然后将他们的权重像染色体一样交叉组合。比如两个模型x11,x12,x13和x21,x22,x23被保留，后面就可以组合出x11,x12,x2...

2020-01-17 14:37:43 2532

原创交通流预测：图卷积网络+seq2seq模型概述

本文将结合交通流量预测分析《Bike Flow Prediction with Multi-Graph Convolutional Networks》中的模型。参考的这篇博客：https://blog.csdn.net/zuiyishihefang/article/details/96978243图卷积网络图网络可以有效的描述交通流预测中地图的拓扑结构，特别是在有采样点参与的情况下。GNN...

2020-01-13 19:00:14 2632 8

原创 tensorflow实现简单的LSTM时序预测

数据集和代码：链接：https://pan.baidu.com/s/1hwk7rRJr_pZgKbUBWI6TNQ提取码：jwpl数据概览与任务描述：数据集是精简排序过的，我们唯一需要用到的属性就是[‘Lane 1 Flow (Veh/5 Minutes)’]。任务就是用前12个连续时刻的状态数据[St0,St1,…,St11]预测第13个时刻的状态pSt12。数据集处理我就min-...

2019-12-06 16:50:59 2304 2

原创词向量嵌入的深入研究

最近做项目想把bert的词向量提出来用，好好研究了一下词向量的嵌入。传统词向量嵌入主要就是word2vec和keras.layers.Embedding层了，除此之外还打算讲一下bert的词向量应用：词向量嵌入的基本流程不管是用word2vec、embedding层还是bert，每个词都会被先编码为一个数字，你的数据集/batch会先被转化为一个[batch_size,seq_length]的...

2019-12-02 20:15:51 838 2

原创交通流分析2：《基于公共交通大数据的上海市居民出行时空特征研究_王宇》和《面向交通拥堵预测大数据的神经网络群组快速学习_沈晴》阅读总结

上一篇的地址：https://blog.csdn.net/qq_43012160/article/details/103313749基于公共交通大数据的上海市居民出行时空特征研究_王宇这篇论文内容并不很多，除了数据清洗和数据分类处理之外主要是讲了聚类的问题，核密度聚类：是对于数据集中的每个点都进行计算，根据值的大小画热力图用的：剩下的东西在上一篇张红的文章里基本上都详细提过了（数据清...

2019-11-30 17:04:40 1190

原创交通流分析1：《基于大数据的城市公路交通流短时预测研究_张红》阅读总结

大概读了一下，第6节小波分析那里实在没有看懂。如果有理解不对的地方欢迎批评指正。建模方法这篇论文选用的是时间序列模型和小波理论，小波理论那里我实在没看懂，说说他基于时间序列模型的组合建模方法，这是选择时间序列模型的理由：作者是将整个交通流数据分解为四个分项（即从四个角度去看待的交通流数据）：周期分项、趋势分项、线性分项和非线性分项：其中周期分项就是交通流呈现出的周期性（比如每天肯定...

2019-11-29 17:03:13 3054 3

原创 seq2seq:LSTM+attention的生成式文本概要

seq2seq:LSTM+attention的生成式文本概要最近做的利用seq2seq模型的生成式文本概要，参考了这位大佬的源码：https://spaces.ac.cn/archives/5861/comment-page-1数据集准备及预处理我直接拿的新闻数据集的内容(content)和标题(title)，根据内容概括标题。一般想要达到比较能看的结果的话需要10w左右的数据集，跑50...

2019-11-23 16:02:10 2341 4

原创文本摘要概述

文本概要就是从一大段文字里提取关键信息，做概括。主要分为抽取式和生成式。抽取式extractive抽取式最常用的算法是TextRank,TextRank 算法是一种用于文本的基于图的排序算法，通过把文本分割成若干组成单元（句子），构建节点连接图，用句子之间的相似度作为边的权重，通过循环迭代计算句子的TextRank值，最后抽取排名高的句子组合成文本摘要。抽取式摘要产生的总结的基本单元（句子/短...

2019-11-01 15:50:57 578

原创 CCF-BDCI互联网新闻情感分析(bert-base,线上0.79)

今天来讲一讲怎么用bert做文本分类，比赛是今年的CCF-BDCIhttps://www.datafountain.cn/competitions/350第一次接触bert，比较菜，线上macro_f1得分0.79：附上代码和数据集，数据集是tsv格式，我做了一些预处理，保存在data文件夹下面，验证集是从原训练集中按0.1的比例划分出来的。测试集test是没有标签的，想跑线下可以用tra...

2019-10-27 16:28:23 3176 1

原创学习bert过程中的思考(1)

最近参加了一个nlp的比赛，做文本情感分类的。发现传统神经网络的效果的确赶不上bert。就研究了一下bert。其实真正运行bert的操作非常简单。但因为找不到教程在最初还是走了很多弯路的。但在走弯路的同时我觉得我学到了很多之前不知道的东西，就用这篇博文记录一下。我觉得这些思考和收获让我对模型的理解和使用水平都提高了一个层次。甚至我后面跑起来bert很大程度上也要归功于这期间对模型理解的提升。这...

2019-10-25 08:59:59 571

原创特征选取/停用词筛选的三种指标

特征选取/停用词筛选的三种指标方差/概率方差方差用来检验数据的分散程度，是特征选取的常用指标。但在nlp中，由于不同的词的词频有着非常大的差异，导致直接利用词的出现概率计算方差会由于基数的大小差异导致结果的偏差，比如下面这个例子：在一个二分类问题中，“的”在0（积极）和1（消极）类中的出现概率p0(的)=0.55,p1(的)=0.45，方差为0.0025,而“好极了”在0类和1类中的出现概...

2019-10-06 14:31:14 1230

原创 BERT模型

BERT模型上一篇写了一下transformer：https://blog.csdn.net/qq_41664845/article/details/84969266原理简述BERT 的创新点在于它将双向 Transformer 用于语言模型。Transformer的decoder 是从左到右单向的，因而是串行的（也体现在当前时间片输出对下一时间片输入的影响上），而Transformer的e...

2019-09-13 22:54:58 640

原创 transformer模型

transformer模型最近想学一下BERT，在这之前就先学了一下transformer。transformer原本是用来做机器翻译的，大概的体系结构长这样：Encoder-Decoder框架这个框架主要用在机器翻译和机器问答领域，就是有两个组件Encoder和Decoder。对于给定的输入source (x1,x2,x3,…,xn), 首先编码器将其编码成一个中间表示向量z=(z1,...

2019-09-12 21:11:38 331

原创结合“泰坦尼克生存预测”对数据预处理的进一步思考1

结合“泰坦尼克生存预测”对数据预处理的进一步思考1上一篇博文按自己的思路做了一下kaggle的泰坦尼克生存预测：https://blog.csdn.net/qq_43012160/article/details/99305856最近结合阿里天池上的这篇博文：https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12282042.0.0....

2019-08-18 15:33:12 233

原创 kaggle泰坦尼克号生存预测（附代码、数据集和答案）

kaggle泰坦尼克号生存预测（附代码、数据集和答案）之前总结的数据预处理方法：https://blog.csdn.net/qq_43012160/article/details/98462307先看一下数据集：这次需要分类的标签被存储在了训练集的Survived列里，1表示生还，0表示遇难。显然这次的特征是有缺失值的，读入数据集，看一下训练集和测试集的长度及各特征的缺失情况：#看...

2019-08-12 17:10:18 32085 10

原创数据挖掘小结：预处理

数据挖掘实战流程受这篇博文的启发：https://blog.csdn.net/leeafay/article/details/80273529和最近做的几个实战项目的启发做了一些总结数据预处理1.对于数据集的一些预处理（合并、拆分…）2.文件编码，这点在中文文本处理上非常常见，TXT文档的编码方式一般是ANSI，但是python一般会用utf-8来处理。这点我实测过了，在打开文件的时候注...

2019-08-05 16:27:19 5637

原创 kesci数据分类练习赛：提供银行精准营销解决方案(附源码)

(kesci数据分类预测)提供银行精准营销解决方案练习赛kesci的一个练习赛：https://www.kesci.com/home/competition/5c234c6626ba91002bfdfdd3/content赛题描述训练集有20000多条，测试集10000多条，16维特征，最后有两种结果分类：0（不会买银行的产品）和1（会买银行的产品）：数据预处理先引入包和读入数据集（包括...

2019-07-29 13:44:03 2426 1

原创数据预处理优化、词云和tf-idf

数据预处理优化、词云和tf-idf这次换了一个中文的多文件多分类数据集，下面是数据集和代码：链接：https://pan.baidu.com/s/1dRCS5rCMbq2_lfGkr4vjJw提取码：ojdl这里我没有用他文件夹里给的stoplist。多文件数据集的读入处理有时候我们的数据集并不是csv文件，而是更加原始的txt文件，而且还可能存储在多个文件中，这也更贴近实际情况，这次...

2019-07-25 21:33:26 1151

原创利用Keras实现的CNN进行文本分类

利用Keras实现的CNN进行文本分类上一篇博文已经分析了CNN如何应用在文本分类中：https://blog.csdn.net/qq_43012160/article/details/96572537这一篇我们来讲一讲怎么用keras实现一个CNN并用它来文本分类。先放一张原理图：数据集和源码：链接：https://pan.baidu.com/s/1XWBOcCMvHRuZEGdk...

2019-07-22 22:38:30 2082 8

原创 CNN在文本分类中的应用

CNN在文本分类中的应用参考了：https://www.kesci.com/home/project/5d15a8fe708b90002c6c368c?tdsourcetag=s_pcqq_aiomsg和https://blog.csdn.net/u012808902/article/details/81155509援引论文《Convolutional Neural Networks for...

2019-07-20 14:19:46 1025

原创文本分类的14种算法总结

文本分类的14种算法总结之前总结了14种文本分类中的常用算法，包括8种传统算法：k临近、决策树、多层感知器、朴素贝叶斯（包括伯努利贝叶斯、高斯贝叶斯和多项式贝叶斯）、逻辑回归和支持向量机；4种集成学习算法：随机森林、AdaBoost、lightGBM和xgBoost；2种深度学习算法：前馈神经网络和LSTM。各篇链接如下：测试环境搭建与数据预处理：https://blog.csdn.net...

2019-07-17 19:54:11 32275 15

原创文本分类的14种算法（6）

文本分类的14种算法（6）前馈神经网络前馈神经网络是一种最简单的神经网络，各神经元分层排列。每个神经元只与前一层的神经元相连。接收前一层的输出，并输出给下一层．各层间没有反馈。之前说的多层感知器就是一种将输入的多个数据集映射到单一的输出的数据集上的前馈神经网络（不过MLP好像是可以后馈的），常见的前馈神经网络还有BP网络和RBF网络。多层感知器的神经单元采用的是阈函数所以无法处理线性分类问...

2019-07-16 22:41:17 1666 1

原创文本分类的14种算法（5）

文本分类的14种算法（5）lightGBMlightGBM是对GBDT算法的一种改进，先说说GBDT算法：之前的AdaBoosting是Boosting框架+任意基学习器算法+指数损失函数。GBDT是Boosting框架+CART回归树模型+任意损失函数。AdaBoosting利用前一轮迭代弱学习器的误差率来更新训练集的权重，而GBDT采用梯度下降法。GBDT在迭代的每一步构建一个能够...

2019-07-15 23:33:49 669

原创文本分类的14种算法（4）

文本分类的14种算法（4）随机森林算法随机森林就是指通过多个不同的决策树进行预测，最后取多数的预测结果为最终结果。随机森林算法的核心思想叫bagging，bagging类似于生活中的投票表决，但投票表决肯定要建立在各人有不同意见的基础上啊，所以随机森林的决策树必须是不同的（不然一个决策树预测多遍有什么用）。为了实现这个不同决策树的生成，就需要决策树满足如下规则：1.每棵决策树的训练样本是在...

2019-07-13 23:09:53 1760

原创文本分类的14种算法（3）

文本分类的14种算法（3）：部分常用文本分类算法k临近算法所谓临近，就是指对于测试样本，找出训练集中与他最相似的一个样本，并将该样本的结果当作测试样本的结果输出。k临近算法利用“距离”的概念来描述样例间的相似程度：对于文本的特征向量（x1,x2,…,xn），把他当作一个n维的点，其与另一个文本（y1,y2,…,yn）的距离根号下(∑(xi-yi)^2)即两文本的相似程度。可见k临近算法的计...

2019-07-11 22:57:42 2434

原创文本分类的14种算法（2）

文本分类的14种算法（2）：部分常用文本分类算法决策树决策树从根结点开始，根据待分类数据的某一特征的取值对其进行划分，分配到相应子结点。像这样递归进行，直到到达叶结点。那么如何判定最优特征呢？先放几个定义：1.随机变量X的熵定义为：H( p )=-∑pi*log(pi)熵越大，随机变量的不确定性越大2.H(Y|X)称为随机变量X给定的条件下随机变量Y的条件熵H(Y|X)=∑p(X...

2019-07-10 22:13:36 3552

原创文本分类的14种算法（1）

文本分类的14种算法k临近算法k临近算法即对于待预测数据，依据与其最相似（接近）的k个点中的占大多数的分类，对其进行分类。这里的最近/最相似可以转化为高维空间中的距离最短来处理：假设一组数据有n个度量维度(x1,x2,x3…,xn)，将其看作一个n维的点。将训练集看作一组n维空间的点集。对于待预测的点，取其与训练集中点的欧式距离（即假设待预测数据为(y1,y2,…,yn),欧式距离为根号下∑...

2019-07-08 20:30:03 4209

原创 kesci文本情感分类练习赛

kesci文本情感分类练习赛（朴素贝叶斯）原网址：https://www.kesci.com/home/competition/5c77ab9c1ce0af002b55af86/content/0因为练习赛已经截止了，虽然提供了训练集和测试集，但是找不到答案。他的数据集是名为「Roman Urdu DataSet」的公开数据集，所以我直接把这个数据集扒了下来，从里面扣了9000条作为训练集...

2019-07-04 23:50:38 1433

原创 python简单爬虫（pycharm）(二)

python简单爬虫（pycharm）(二)源网页地址：http://learning.gem5.org/book/part1/building.html我们来把他的文本，也就是标签下的东西给爬出来。比如这一段，注意那句：“To build gem5,we will use SCons.”包的安装这里选用BeautifulSoup包。首先打开cmd，进入安装python的文件夹下...

2019-07-02 00:12:01 961

原创 python简单爬虫（pycharm）(一)

python简单爬虫（pycharm）(一)之前做过一段时间体系结构，来爬个gem5的教程吧先第一种方法代码：import requests #调包url = 'http://learning.gem5.org/book/part1/building.html' #这里的URL就是通过开发者工具找到的网页的请求信息里的Request URLres = requests.g...

2019-07-01 23:33:47 7835 6

qq_43012160的博客