- 博客(4)
- 收藏
- 关注
原创 NLP学习task2
Q1:假设字符3750,字符900和字符648是句子的标点符号,请分析赛题每篇新闻平均由多少个句子构成?根据学习笔记,代码修改如下:from collections import Counterall_lines = ' '.join(list(train_df['text']))word_count = Counter(all_lines.split(" ")) #返回的是键值对,字符以及与之对应的个数。word_count = sorted(word_count.items(), key=
2020-07-24 14:56:47 146
原创 NLP学习打卡task1-datawhale
@NLP学习打卡task1-datawhale赛题名称:零基础入门NLP之新闻文本分类赛题目标:通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。赛题概览赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。赛题数据由以下几个部分构成
2020-07-21 20:14:44 188
原创 街道字符识别_题目理解(datawhale)
1 数据集说明数据集来自公开数据集SVHN,进行匿名处理和噪音处理;训练集数据包括3W张照片,验证集数据包括1W张照片每张照片包括颜色图像和对应的编码类别和具体位置;给出了训练集、验证集中所有字符的位置框2 字段表所有的数据(训练集、验证集和测试集)的标注使用JSON格式,并使用文件名进行索引。如果一个文件中包括多个字符,则使用列表将字段进行组合。FieldDescriptiontop左上角坐标Xheight字符高度left左上角坐标Ywidth字
2020-05-21 18:39:49 330
原创 Datawhale_计算机视觉(cv)学习(一、图像插值)
图像插值算法原理简单描述图像处理中,平移变换、旋转变换以及放缩变换是一些基础且常用的操作。这些几何变换并不改变图象的象素值,只是在图象平面上进行象素的重新排列。需要插值算法来进行处理,常见的插值算法有最近邻插值是指将目标图像中的点,对应到源图像中后,找到最相邻的整数点,作为插值后的输出。缺点是,用该方法作放大处理时,在图象中可能出现明显的块状效应-** 双线性插值**双线性插值就是线性插值在二维时的推广,在两个方向上做三次线性插值。OpenCV代码实现import cv2 if __
2020-05-20 21:00:06 376
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人