大数据
文章平均质量分 66
qq_43012160
屯屯屯烫烫烫
展开
-
流量预测中的数据分布问题
我们知道机器学习领域中,投入模型的数据具有一个好的数学分布(主要是高斯分布)无论是对于数据的清洗预处理还是对于模型的学习都有着非常大的作用。但是现实问题中的数据一般不是高斯分布的,所以怎样将偏态分布的数据转换为正态分布的数据就很值得研究了。今天就结合我最近遇到的一个问题讲一下log1p函数及其变形。问题最近在做流量预测的时候,整理完训练集的数据发现长这样:也可以理解,毕竟不管是网页流量...原创 2020-02-17 14:08:09 · 1259 阅读 · 0 评论 -
遗传算法、DBN、ResNet与小波神经网络
遗传算法、DBN、ResNet与小波神经网络遗传算法一般神经网络的权重调整都是通过BP来实现的,其实也可以不通过BP实现,比如通过遗传算法。比如现在有一层神经网络,他的权重是(X1,X2,X3).遗传算法即生成多个同样的网络模型,每次取效果比较好的几个,然后将他们的权重像染色体一样交叉组合。比如两个模型x11,x12,x13和x21,x22,x23被保留,后面就可以组合出x11,x12,x2...原创 2020-01-17 14:37:43 · 2532 阅读 · 0 评论 -
交通流预测:图卷积网络+seq2seq模型概述
本文将结合交通流量预测分析《Bike Flow Prediction with Multi-Graph Convolutional Networks》中的模型。参考的这篇博客:https://blog.csdn.net/zuiyishihefang/article/details/96978243图卷积网络图网络可以有效的描述交通流预测中地图的拓扑结构,特别是在有采样点参与的情况下。GNN...原创 2020-01-13 19:00:14 · 2632 阅读 · 8 评论 -
tensorflow实现简单的LSTM时序预测
数据集和代码:链接:https://pan.baidu.com/s/1hwk7rRJr_pZgKbUBWI6TNQ提取码:jwpl数据概览与任务描述:数据集是精简排序过的,我们唯一需要用到的属性就是[‘Lane 1 Flow (Veh/5 Minutes)’]。任务就是用前12个连续时刻的状态数据[St0,St1,…,St11]预测第13个时刻的状态pSt12。数据集处理我就min-...原创 2019-12-06 16:50:59 · 2304 阅读 · 2 评论 -
交通流分析2:《基于公共交通大数据的上海市居民出行时空特征研究_王宇》和《面向交通拥堵预测大数据的神经网络群组快速学习_沈晴》阅读总结
上一篇的地址:https://blog.csdn.net/qq_43012160/article/details/103313749基于公共交通大数据的上海市居民出行时空特征研究_王宇这篇论文内容并不很多,除了数据清洗和数据分类处理之外主要是讲了聚类的问题,核密度聚类:是对于数据集中的每个点都进行计算,根据值的大小画热力图用的:剩下的东西在上一篇张红的文章里基本上都详细提过了(数据清...原创 2019-11-30 17:04:40 · 1190 阅读 · 0 评论 -
交通流分析1:《基于大数据的城市公路交通流短时预测研究_张红》阅读总结
大概读了一下,第6节小波分析那里实在没有看懂。如果有理解不对的地方欢迎批评指正。建模方法这篇论文选用的是时间序列模型和小波理论,小波理论那里我实在没看懂,说说他基于时间序列模型的组合建模方法,这是选择时间序列模型的理由:作者是将整个交通流数据分解为四个分项(即从四个角度去看待的交通流数据):周期分项、趋势分项、线性分项和非线性分项:其中周期分项就是交通流呈现出的周期性(比如每天肯定...原创 2019-11-29 17:03:13 · 3054 阅读 · 3 评论 -
文本摘要概述
文本概要就是从一大段文字里提取关键信息,做概括。主要分为抽取式和生成式。抽取式extractive抽取式最常用的算法是TextRank,TextRank 算法是一种用于文本的基于图的排序算法,通过把文本分割成若干组成单元(句子),构建节点连接图,用句子之间的相似度作为边的权重,通过循环迭代计算句子的TextRank值,最后抽取排名高的句子组合成文本摘要。抽取式摘要产生的总结的基本单元(句子/短...原创 2019-11-01 15:50:57 · 578 阅读 · 0 评论 -
CCF-BDCI互联网新闻情感分析(bert-base,线上0.79)
今天来讲一讲怎么用bert做文本分类,比赛是今年的CCF-BDCIhttps://www.datafountain.cn/competitions/350第一次接触bert,比较菜,线上macro_f1得分0.79:附上代码和数据集,数据集是tsv格式,我做了一些预处理,保存在data文件夹下面,验证集是从原训练集中按0.1的比例划分出来的。测试集test是没有标签的,想跑线下可以用tra...原创 2019-10-27 16:28:23 · 3176 阅读 · 1 评论 -
学习bert过程中的思考(1)
最近参加了一个nlp的比赛,做文本情感分类的。发现传统神经网络的效果的确赶不上bert。就研究了一下bert。其实真正运行bert的操作非常简单。但因为找不到教程在最初还是走了很多弯路的。但在走弯路的同时我觉得我学到了很多之前不知道的东西,就用这篇博文记录一下。我觉得这些思考和收获让我对模型的理解和使用水平都提高了一个层次。甚至我后面跑起来bert很大程度上也要归功于这期间对模型理解的提升。这...原创 2019-10-25 08:59:59 · 571 阅读 · 0 评论 -
结合“泰坦尼克生存预测”对数据预处理的进一步思考1
结合“泰坦尼克生存预测”对数据预处理的进一步思考1上一篇博文按自己的思路做了一下kaggle的泰坦尼克生存预测:https://blog.csdn.net/qq_43012160/article/details/99305856最近结合阿里天池上的这篇博文:https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12282042.0.0....原创 2019-08-18 15:33:12 · 233 阅读 · 0 评论 -
数据挖掘小结:预处理
数据挖掘实战流程受这篇博文的启发:https://blog.csdn.net/leeafay/article/details/80273529和最近做的几个实战项目的启发做了一些总结数据预处理1.对于数据集的一些预处理(合并、拆分…)2.文件编码,这点在中文文本处理上非常常见,TXT文档的编码方式一般是ANSI,但是python一般会用utf-8来处理。这点我实测过了,在打开文件的时候注...原创 2019-08-05 16:27:19 · 5637 阅读 · 0 评论 -
文本分类的14种算法(4)
文本分类的14种算法(4)随机森林算法随机森林就是指通过多个不同的决策树进行预测,最后取多数的预测结果为最终结果。随机森林算法的核心思想叫bagging,bagging类似于生活中的投票表决,但投票表决肯定要建立在各人有不同意见的基础上啊,所以随机森林的决策树必须是不同的(不然一个决策树预测多遍有什么用)。为了实现这个不同决策树的生成,就需要决策树满足如下规则:1.每棵决策树的训练样本是在...原创 2019-07-13 23:09:53 · 1760 阅读 · 0 评论 -
文本分类的14种算法(5)
文本分类的14种算法(5)lightGBMlightGBM是对GBDT算法的一种改进,先说说GBDT算法:之前的AdaBoosting是Boosting框架+任意基学习器算法+指数损失函数。GBDT是Boosting框架+CART回归树模型+任意损失函数。AdaBoosting利用前一轮迭代弱学习器的误差率来更新训练集的权重,而GBDT采用梯度下降法。GBDT在迭代的每一步构建一个能够...原创 2019-07-15 23:33:49 · 669 阅读 · 0 评论 -
文本分类的14种算法(6)
文本分类的14种算法(6)前馈神经网络前馈神经网络是一种最简单的神经网络,各神经元分层排列。每个神经元只与前一层的神经元相连。接收前一层的输出,并输出给下一层.各层间没有反馈。之前说的多层感知器就是一种将输入的多个数据集映射到单一的输出的数据集上的前馈神经网络(不过MLP好像是可以后馈的),常见的前馈神经网络还有BP网络和RBF网络。多层感知器的神经单元采用的是阈函数所以无法处理线性分类问...原创 2019-07-16 22:41:17 · 1666 阅读 · 1 评论 -
kesci数据分类练习赛:提供银行精准营销解决方案(附源码)
(kesci数据分类预测)提供银行精准营销解决方案练习赛kesci的一个练习赛:https://www.kesci.com/home/competition/5c234c6626ba91002bfdfdd3/content赛题描述训练集有20000多条,测试集10000多条,16维特征,最后有两种结果分类:0(不会买银行的产品)和1(会买银行的产品):数据预处理先引入包和读入数据集(包括...原创 2019-07-29 13:44:03 · 2426 阅读 · 1 评论 -
文本分类的14种算法总结
文本分类的14种算法总结之前总结了14种文本分类中的常用算法,包括8种传统算法:k临近、决策树、多层感知器、朴素贝叶斯(包括伯努利贝叶斯、高斯贝叶斯和多项式贝叶斯)、逻辑回归和支持向量机;4种集成学习算法:随机森林、AdaBoost、lightGBM和xgBoost;2种深度学习算法:前馈神经网络和LSTM。各篇链接如下:测试环境搭建与数据预处理:https://blog.csdn.net...原创 2019-07-17 19:54:11 · 32275 阅读 · 15 评论 -
CNN在文本分类中的应用
CNN在文本分类中的应用参考了:https://www.kesci.com/home/project/5d15a8fe708b90002c6c368c?tdsourcetag=s_pcqq_aiomsg和https://blog.csdn.net/u012808902/article/details/81155509援引论文《Convolutional Neural Networks for...原创 2019-07-20 14:19:46 · 1025 阅读 · 0 评论 -
数据预处理优化、词云和tf-idf
数据预处理优化、词云和tf-idf这次换了一个中文的多文件多分类数据集,下面是数据集和代码:链接:https://pan.baidu.com/s/1dRCS5rCMbq2_lfGkr4vjJw提取码:ojdl这里我没有用他文件夹里给的stoplist。多文件数据集的读入处理有时候我们的数据集并不是csv文件,而是更加原始的txt文件,而且还可能存储在多个文件中,这也更贴近实际情况,这次...原创 2019-07-25 21:33:26 · 1151 阅读 · 0 评论 -
利用Keras实现的CNN进行文本分类
利用Keras实现的CNN进行文本分类上一篇博文已经分析了CNN如何应用在文本分类中:https://blog.csdn.net/qq_43012160/article/details/96572537这一篇我们来讲一讲怎么用keras实现一个CNN并用它来文本分类。先放一张原理图:数据集和源码:链接:https://pan.baidu.com/s/1XWBOcCMvHRuZEGdk...原创 2019-07-22 22:38:30 · 2082 阅读 · 8 评论 -
python简单爬虫(pycharm)(一)
python简单爬虫(pycharm)(一)之前做过一段时间体系结构,来爬个gem5的教程吧先第一种方法代码:import requests #调包url = 'http://learning.gem5.org/book/part1/building.html' #这里的URL就是通过开发者工具找到的网页的请求信息里的Request URLres = requests.g...原创 2019-07-01 23:33:47 · 7835 阅读 · 6 评论