![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
基于天池学习赛进行的机器学习记录
不怎么会写代码
这个作者很懒,什么都没留下…
展开
-
资金流入流出预测Task01
任务:期望参赛者能够通过对例如余额宝用户的申购赎回数据的把握,精准预测未来每日的资金流入流出情况。对货币基金而言,资金流入意味着申购行为,资金流出为赎回行为 。 竞赛中使用的数据主要包含四个部分,分别为用户基本信息数据、用户申购赎回数据、收益率表和银行间拆借利率表。 ...转载 2020-08-20 16:51:01 · 344 阅读 · 0 评论 -
新闻文本分类Task6
Task6 基于深度学习的文本分类3 基于深度学习的文本分类 学习目标 了解Transformer的原理和基于预训练语言模型(Bert)的词表示 学会Bert的使用,具体包括pretrain和finetune 文本表示方法Part4 Transformer原理 Transformer是在"Attention is All You Need"中提出的,模型的编码部分是一组编码器的堆叠(论文中依次堆叠六个编码器),模型的解码部分是由相同数量的解码器的堆叠。 我们重点关注编码部分。他们结构完全相同,但是并不转载 2020-08-04 10:13:59 · 114 阅读 · 0 评论 -
新闻分类Task5
Task5 基于深度学习的文本分类2 在上一章节,我们通过FastText快速实现了基于深度学习的文本分类模型,但是这个模型并不是最优的。在本章我们将继续深入。 基于深度学习的文本分类 本章将继续学习基于深度学习的文本分类。 学习目标 学习Word2Vec的使用和基础原理 学习使用TextCNN、TextRNN进行文本表示 学习使用HAN网络结构完成文本分类 文本表示方法 Part3 词向量 本节通过word2vec学习词向量。word2vec模型背后的基本思想是对出现在上下文环境里的词进行预测。对于每转载 2020-07-31 12:56:27 · 116 阅读 · 0 评论 -
新闻文本分类task4
Fasttext使用 fasttext安装 安装地址 任务代码: import pandas as pd from sklearn.metrics import f1_score # 转换为FastText需要的格式 train_df = pd.read_csv('./data/train_set.csv', sep='\t', nrows=15000) train_df['label_ft'] = '__label__' + train_df['label'].astype(str) train_df[转载 2020-07-27 14:26:29 · 68 阅读 · 0 评论 -
新闻文本分类Task3
Task3 基于机器学习的文本分类 基于机器学习的文本分类 在本章我们将开始使用机器学习模型来解决文本分类。机器学习发展比较广,且包括多个分支,本章侧重使用传统机器学习,从下一章开始是基于深度学习的文本分类。 学习目标 学会TF-IDF的原理和使用 使用sklearn的机器学习模型完成文本分类 机器学习模型 机器学习是对能通过经验自动改进的计算机算法的研究。机器学习通过历史数据训练出模型对应于人类对经验进行归纳的过程,机器学习利用模型对新数据进行预测对应于人类利用总结的规律对新问题进行预测的过程。 机器转载 2020-07-23 21:21:37 · 89 阅读 · 0 评论 -
新闻文本分类Task2
新闻文本分类Task2 学习目标 学习使用Pandas读取赛题数据 分析赛题数据的分布规律 数据读取 import pandas as pd train_df = pd.read_csv('../data/train_set.csv', sep='\t', nrows=100) 这里的read_csv由三部分构成: 读取的文件路径,这里需要根据改成你本地的路径,可以使用相对路径或绝对路径; 分隔符sep,分割的字符,设置为\t即可; 读取行数nrows,为此次读取文件的函数,是数值类型(由于数据集比转载 2020-07-22 20:44:13 · 117 阅读 · 0 评论 -
新闻文本分类Task1
新闻文本分类Task1 赛题理解 赛题名称:零基础入门NLP之新闻文本分类 赛题目标:通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。 赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。 学习目标 理解赛题背景与赛题数据 完成赛题报名和数据下载,理解赛题的解题思路 赛题数据 赛题以匿名处理后的新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选转载 2020-07-21 19:37:17 · 158 阅读 · 0 评论