自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 NLP学习task2

Q1:假设字符3750,字符900和字符648是句子的标点符号,请分析赛题每篇新闻平均由多少个句子构成?根据学习笔记,代码修改如下:from collections import Counterall_lines = ' '.join(list(train_df['text']))word_count = Counter(all_lines.split(" ")) #返回的是键值对,字符以及与之对应的个数。word_count = sorted(word_count.items(), key=

2020-07-24 14:56:47 146

原创 NLP学习打卡task1-datawhale

@NLP学习打卡task1-datawhale赛题名称:零基础入门NLP之新闻文本分类赛题目标:通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。赛题概览赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。赛题数据由以下几个部分构成

2020-07-21 20:14:44 188

原创 街道字符识别_题目理解(datawhale)

1 数据集说明数据集来自公开数据集SVHN,进行匿名处理和噪音处理;训练集数据包括3W张照片,验证集数据包括1W张照片每张照片包括颜色图像和对应的编码类别和具体位置;给出了训练集、验证集中所有字符的位置框2 字段表所有的数据(训练集、验证集和测试集)的标注使用JSON格式,并使用文件名进行索引。如果一个文件中包括多个字符,则使用列表将字段进行组合。FieldDescriptiontop左上角坐标Xheight字符高度left左上角坐标Ywidth字

2020-05-21 18:39:49 330

原创 Datawhale_计算机视觉(cv)学习(一、图像插值)

图像插值算法原理简单描述图像处理中,平移变换、旋转变换以及放缩变换是一些基础且常用的操作。这些几何变换并不改变图象的象素值,只是在图象平面上进行象素的重新排列。需要插值算法来进行处理,常见的插值算法有最近邻插值是指将目标图像中的点,对应到源图像中后,找到最相邻的整数点,作为插值后的输出。缺点是,用该方法作放大处理时,在图象中可能出现明显的块状效应-** 双线性插值**双线性插值就是线性插值在二维时的推广,在两个方向上做三次线性插值。OpenCV代码实现import cv2 if __

2020-05-20 21:00:06 376

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除