- 博客(18)
- 收藏
- 关注
原创 Task5 作者信息关联
任务说明 学习主题:作者关联(数据建模任务),对论文作者关系进行建模,统计最常出现的作者关系; 学习内容:构建作者关系图,挖掘作者关系 学习成果:论文作者知识图谱、图关系挖掘 数据处理步骤 将作者列表进行处理,并完成统计。具体步骤如下: 将论文第一作者与其他作者(论文非第一作者)构建图; 使用图算法统计图中作者与其他作者的联系; 社交网络分析 图是复杂网络研究中的一个重要概念。Graph是用点和线来刻画离散事物集合中的每对事物间以某种方式相联系的数学模型。Graph在现实世界中随处可见,如交通运输图
2021-01-24 21:22:45 112 1
原创 Task4论文种类分类
任务说明 学习主题:论文分类(数据建模任务),利用已有数据建模,对新论文进行类别分类; 学习内容:使用论文标题完成类别分类; 学习成果:学会文本分类的基本方法、TF-IDF等; 数据处理步骤 在原始arxiv论文中论文都有对应的类别,而论文类别是作者填写的。在本次任务中我们可以借助论文的标题和摘要完成: 对论文标题和摘要进行处理; 对论文类别进行处理; 构建文本分类模型; 数据预处理 # 导入所需的package import seaborn as sns #用于画图 from bs4 import
2021-01-22 21:11:23 112
原创 Task3 论文代码统计
任务说明 任务主题:论文代码统计,统计所有论文出现代码的相关统计; 任务内容:使用正则表达式统计代码连接、页数和图表数据; 任务成果:学习正则表达式统计; 数据处理步骤 在原始arxiv数据集中作者经常会在论文的comments或abstract字段中给出具体的代码链接,所以我们需要从这些字段里面找出代码的链接。 确定数据出现的位置; 使用正则表达式完成匹配; 完成相关的统计; 正则表达式 正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),可以用来检查一
2021-01-18 19:25:25 164
原创 论文作者统计
任务说明 **任务主题:**论文作者统计,统计所有论文作者出现评率Top10的姓名; **任务内容:**论文作者的统计、使用 Pandas 读取数据并使用字符串操作; **任务成果:**学习 Pandas 的字符串操作; 数据处理步骤 在原始arxiv数据集中论文作者authors字段是一个字符串格式,其中每个作者使用逗号进行分隔分,所以我们我们首先需要完成以下步骤: 使用逗号对作者进行切分; 剔除单个作者中非常规的字符; 数据读取 # 导入所需的package import seaborn as sns
2021-01-15 22:35:43 157
原创 Datawhale-学术前沿趋势分析-Task01
任务说明 任务主题:论文数量统计,即统计2019年全年计算机各个方向论文数量; 任务内容:赛题的理解、使用 Pandas 读取数据并进行统计; 任务成果:学习 Pandas 的基础操作。 数据集介绍 数据集来源:数据集来源. 数据集的格式如下: id:arXiv ID,可用于访问论文; submitter:论文提交者; authors:论文作者; title:论文标题; comments:论文页数和图表等其他信息; journal-ref:论文发表的期刊的信息; doi:数字对象标识符,https://ww
2021-01-14 09:59:19 100
原创 task6 基于深度学习的文本分类
基于Bert的文本分类 Bert Pretrain预训练过程使用了Google基于Tensorflow发布的BERT源代码。首先从原始文本中创建训练数据,由于本次比赛的数据都是ID,这里重新建立了词表,并且建立了基于空格的分词器。class WhitespaceTokenizer(object): “”“WhitespaceTokenizer with vocab.”"" def init(self, vocab_file): self.vocab = load_vocab(voc
2020-08-04 23:47:32 125
原创 Task5 基于深度学习的文本分类
什么是 Word2vec? 在聊 Word2vec 之前,先聊聊 NLP (自然语言处理)。NLP 里面,最细粒度的是 词语,词语组成句子,句子再组成段落、篇章、文档。所以处理 NLP 的问题,首先就要拿词语开刀。 举个简单例子,判断一个词的词性,是动词还是名词。用机器学习的思路,我们有一系列样本(x,y),这里 x 是词语,y 是它们的词性,我们要构建 f(x)->y 的映射,但这里的数学模型 f(比如神经网络、SVM)只接受数值型输入,而 NLP 里的词语,是人类的抽象总结,是符号形式的(比如中文
2020-07-31 23:16:34 158
原创 Task4 基于深度学习的文本分类1
FastText是一种典型的深度学习词向量的表示方法,它非常简单通过Embedding层将单词映射到稠密空间,然后将句子中所有的单词在Embedding空间中进行平均,进而完成分类操作。 所以FastText是一个三层的神经网络,输入层、隐含层和输出层。 FastText在文本分类任务上,是优于TF-IDF的: •FastText用单词的Embedding叠加获得的文档向量,将相似的句子分为一类 •FastText学习到的Embedding空间维度比较低,可以快速进行训练 fastText 安装 pip i
2020-07-28 08:48:45 114
原创 零基础入门NLP赛事 - Task3 基于机器学习的文本分类
方法一:CountVectors + RidgeClassifier # Count Vectors + RidgeClassifier import pandas as pd from sklearn.feature_extraction.text import CountVectorizer from sklearn.linear_model import RidgeClassifier from sklearn.metrics import f1_score train_df = pd.read
2020-07-25 18:23:21 177
原创 Datawhale零基础入门NLP赛事 - Task2 数据读取与数据分析
目的: 1.学习使用Pandas读取数据 2.分析赛题数据的分布规律 读取数据 import pandas as pd import matplotlib as plt import matplotlib.pyplot as plt from collections import Counter #使用pandas从csv文件中读取数据 sep:每列分割的字符 nrows:读取的行数 train_df= pd.read_csv('D:\PycharmProjects\\nlp_start\data\\t
2020-07-22 21:53:58 164
转载 Datawhale零基础入门NLP赛事 - Task1 赛题理解
赛题名称:零基础入门NLP之新闻文本分类 赛题任务:对新闻文本进行分类。 赛题数据: 赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。 赛题数据构成:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。为了预防选手人工标注测试集的情况,将比赛数据的文本按照字符级别进行了匿名处理。 数据标签 Image 在数据集中标签的对应的关系如下:{‘科技’: 0, ‘股票’: 1
2020-07-21 15:21:28 157
原创 解决libsvm wrong input format at line 问题
matlab环境,在读取数据时出现如下报错信息 提示在第87行出现错误的输入,打开文件,发现第87行出现异常值:-1.#IND 解决方法 在将trainingFeatures写入前用fillmissing()给其填充缺失值
2020-06-06 19:04:14 489
原创 零基础入门CV之街道字符识别 Task5 模型集成
集成学习方法 集成学习(Emsemble Learning)是结合几个模型的元算法(meta-algorithm),在机器学习中的集成学习可以在一定程度上提高预测精度。常用方法有Bagging,boosting,stacking,这些集成学习方法与具体验证集划分联系紧密。这三种方法以及他们的效果分别是: Bagging:减少 variance boosting: 减少 bias stacking:增强预测效果 1.bagging bagging的最基本的思想是通过分别训练几个不同分类器,最后对测试的样本,每
2020-06-02 23:16:43 150
原创 零基础入门CV之街道字符识别 Task4 模型训练与验证
训练集:用于模型拟合的数据样本。 验证集:是模型训练过程中单独留出的样本集,它可以用于调整模型的超参数和用于对模型的能力进行初步评估。 在神经网络中, 我们用验证数据集去寻找最优的网络深度(number of hidden layers),或者决定反向传播算法的停止点或者在神经网络中选择隐藏层神经元的数量; 在普通的机器学习中常用的交叉验证(Cross Validation) 就是把训练数据集本身再细分成不同的验证数据集去训练模型。 测试集:用来评估模最终模型的泛化能力。但不能作为调参、选择特征等算法相关的
2020-05-30 23:35:22 312
翻译 零基础入门CV之街道字符识别 Task3 字符识别模型
CNN 卷积神经网络(简称CNN)是一类特殊的人工神经网络,是深度学习中重要的一个分支。CNN在很多领域都表现优异,精度和速度比传统计算学习算法高很多。特别是在计算机视觉领域,CNN是解决图像分类、图像检索、物体检测和语义分割的主流模型。 CNN每一层由众多的卷积核组成,每个卷积核对输入的像素进行卷积操作,得到下一次的输入。随着网络层的增加卷积核会逐渐扩大感受野,并缩减图像的尺寸。 CNN是一种层次模型,输入的是原始的像素数据。CNN通过卷积(convolution)、池化(pooling)、非线性激活函数
2020-05-26 19:50:29 263
原创 零基础入门CV之街道字符识别 Task2 数据读取与扩增
环境配置 win10系统 无GPU 已有Anaconda3 1.首先打开Anaconda Prompt,在Anaconda 中创建一个虚拟环境 取名torch $conda create -n torch python=3.7 2.激活环境,安装pytorch $conda activate torch 先添加清华镜像,这样下载快 $conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ $
2020-05-25 19:17:26 207
翻译 零基础入门CV之街道字符识别 Task1 赛题理解
赛题任务 以计算机视觉中字符识别为背景,要求选手预测街道字符编码,这是一个典型的字符识别问题。 赛题数据 数据来源于公开数据集SVHN街道字符。 提供训练集数据3W张照片,验证集数据1W张照片; 每张照片包括颜色图像和对应的编码类别和具体位置; 为了保证比赛的公平性,测试集A包括4W张照片,测试集B包括4W张照片; 提供了训练集、验证集中所有字符的位置框。 评测指标 以编码整体识别准确率为评价指标。任何一个字符错误都为错误,最终评测指标结果越大越好,具体计算公式如下: Score=编码识别正确的数量/
2020-05-19 21:15:50 296 1
原创 Matlab中libSVM所需数据格式的代码转化
Matlab中libSVM所需数据格式的代码转化 下载了FormatDataLibsvm试着用了用,然鹅没成功,而且觉得数据量大的时候用它有点麻烦,还是直接代码转换吧。在吸收了各路大神的经验后终于成功了,在此记录一下小白成长的一小步。 libSVM的数据格式 Label index1:value1 index2:value2 index3:value3 …. Label index1:value1...
2019-12-04 19:28:19 1033 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人