自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 Datawhale-NLP入门-打卡3

第三次打卡的重点在fastTextfastText本质上,fastText= word2vec中 CBOW + h-softmax的灵活使用灵活体现在两个方面:模型的输出层:word2vec的输出层,对应的是每一个term,计算某term的概率最大;而fastText的输出层对应的是分类的label。不过不管输出层对应的是什么内容,起对应的vector都不会被保留和使用;模型的输入层:word2vec的输出层,是context window 内的term;而fastText 对应的整个sent

2020-06-30 22:36:08 177

原创 Datawhale-NLP入门-打卡2

本次打卡最主要的是要GloVe。GloVe模型Word2Vec模型,它是一种基于local context window的direct prediction预测模型,对于学习word vector,还有另一类模型是count based global matrix factorization。count based模型的经典代表是SVD(Single Value Decomposition)模型。比较SVD这种count based模型与Word2Vec这种direct prediction模型,它们

2020-06-27 18:24:19 174

原创 Datawhale-NLP入门-打卡1

本次打卡基于Stanford CS224N 2019Winter课程,主讲人Manning。想看视频的同学建议用:B站链接,博主爱可可的较多,因而弹幕也会多一些,单开英文字幕(中文字幕机翻一塌糊涂),结合弹幕大佬的难词翻译,基本上能跟上。ppt、notes及代码作业官网(官网链接)可下载,不能翻墙的同学网上找找也可以轻松找到。其它重要学习资料公众号:夕小瑶的卖萌屋知乎文章:[NLP] 秒懂词向量Word2vec的本质Coursera课程:618才上线的全新入门课程Lec 1:Introducti

2020-06-24 17:42:22 249

原创 Datawhale-天池入门赛街景字符编码识别-Task5:模型集成

接上:Datawhale-天池入门赛街景字符编码识别-Task1:赛题理解、Datawhale-天池入门赛街景字符编码识别-Task2:数据读取与数据增强、Datawhale-天池入门赛街景字符编码识别-Task3:字符识别模型、Datawhale-天池入门赛街景字符编码识别-Task4:模型训练与验证近期进展将预测5个数字改为预测4个后,模型性能大幅提升,可见噪声对模型性能的影响。class SVHNDataset(Dataset): def __init__(self, img_path,

2020-06-02 21:55:19 260 1

原创 Datawhale-天池入门赛街景字符编码识别-Task4:模型训练与验证

接上:Datawhale-天池入门赛街景字符编码识别-Task1:赛题理解、Datawhale-天池入门赛街景字符编码识别-Task2:数据读取与数据增强、Datawhale-天池入门赛街景字符编码识别-Task3:字符识别模型近期进展近期开始尝试使用检测模型,首先就要对label进行适当处理,自己尝试通过部分可视化的手段,帮助自己对坐标框进行处理,代码如下:class Visualization: def __init__(self, image_path, label_path)

2020-05-30 22:53:49 271

原创 Datawhale-天池入门赛街景字符编码识别-Task3:字符识别模型

接上:Datawhale-天池入门赛街景字符编码识别-Task1:赛题理解、Datawhale-天池入门赛街景字符编码识别-Task2:数据读取与数据增强思路定长序列预测(baseline)将序列补齐至相同长度训练时预测11个类,0-9,无字符测试时将无字符的预测删去增加length属性,对序列长度预测结果做约束(尝试中)部分代码如下:class SVHNDataset(Dataset): def __init__(self, img_path, img_label, trans

2020-05-26 21:29:10 209

原创 Datawhale-天池入门赛街景字符编码识别-Task2:数据读取与数据增强

接上:Datawhale-天池入门赛街景字符编码识别-Task1:赛题理解以下Pytorch相关内容均基于Pytorch1.5.0,并参考官方文档数据读取数据读取作为整个pipeline的开始,在保证读取正确的前提下,效率也是十分重要的,在Pytorch中常常结合Dataset类和DataLoader类实现数据的分批次读取。主要是通过继承的方式重写里面的一些函数并设置特定参数。Dataset对于Dataset类,主要重写三个方法,__init__函数主要设置读取数据和标签的路径,以及对trans

2020-05-23 23:07:05 240

原创 Datawhale-天池入门赛街景字符编码识别-Task1:赛题理解

本次新人赛是Datawhale与天池联合发起的零基础入门系列赛事第二场 —— 零基础入门CV赛事之街景字符识别。赛制、赛题和数据详见天池官网链接。数据集本次比赛的数据集为处理过的SVHN,训练集3w,验证集1w,测试集4w,不同于原始SVHN的分辨率(均为32*32),本赛题的数据集分辨率各不相同,简单浏览数据集,可以看出图像对应的编码长度为1-6不等,主要集中在2-4,编码长度为6的图像极少(可考虑作为离群点),各字符颜色、字体、字号多种多样,需要想办法提取出最合适的特征用于最后的识别。赛题思路定

2020-05-21 16:44:36 296

原创 Datawhale爬虫-Task4(完)

接上:Task1、Task2、Task3写在前面总算到大作业了,实现了腾讯新闻的爬虫,但是没实现知乎的(反爬还是强,以后再试试),爬虫还是很实用的,只要把控类人行为这一点,可以为个人省很多事。实践腾讯新闻爬虫import timeimport randomfrom selenium import webdriverfrom lxml import etreedriver = w...

2020-04-27 20:32:17 186

原创 Datawhale爬虫-Task3

接上:Datawhale爬虫-Task2写在前面这两天总算上完了嵩天教授爬虫课(B站链接、MOOC链接),另外在2020/4/28日之前完成MOOC课程的4个小考试(每个考试10个简单的单选题)还可以获得MOOC证书,因而顺手完成了。此外,就是开始消化之前拉勾教育活动时买的《52讲轻松搞定网络爬虫》,讲师是崔庆才老师,这个课还在连载中,目前学下来有几个值得推荐的点:拉勾新用户1元购(不是...

2020-04-25 23:29:17 233

原创 Datawhale爬虫-Task2

接上:Datawhale爬虫-Task2学习笔记1.嵩天教授爬虫课第三章B站链接、MOOC链接第三章的内容是re(regular expression,正则表达式)re是python自带的标准库无需安装,通过简洁的方式刻画字符串的特征。re通常使用raw string,避免大量转义字符的使用。常用操作符:经典正则表达式实例:主要方法:控制标记:编译:Match...

2020-04-23 21:52:06 410

原创 Datawhale爬虫-Task1

写在前面这是第二次参加Datawhale的组队学习活动,非常感谢遇到这个平台,让我开始系统地去学些什么,而不是漫无目的地到处学点皮毛。这次的学习内容是:Python爬虫编程实践,学习目的:掌握基础的爬虫知识,并转换为未来的一些实用技能(嗯哼借机消化之前拉勾教育活动时买的《52讲轻松搞定网络爬虫》学习笔记首先几个思维导图(来源:公众号:数林觅风 ),看完北理嵩天教授-《Python网...

2020-04-21 21:01:10 259

原创 百度paddlepaddle-深度学习7日入门-CV疫情特辑-学习小结

0.课程简介首先附上——[课程链接],(https://aistudio.baidu.com/aistudio/education/group/info/1149),本次课程依托百度AI Studio平台,良心算力卡免费送(虽然有时排不上GPU),穷学生薅羊毛的好地方。百度认证布道师、资深算法工程师双师授课,还配备“班主任”在微信学习群进行直播、答疑、互动,参与感满满,群里大佬还时不时分享自己...

2020-04-11 15:02:48 202

原创 天池-二手车价格预测-Ensembling

接上三篇:天池-二手车价格预测-EDA、天池-二手车价格预测-FE、天池-二手车价格预测-Modeling文首,深切哀悼新冠肺炎疫情牺牲烈士和逝世同胞。0.Ensembling简介模型融合简单来说就是通过对一组的基分类器以某种方式进行组合,以提升模型整体性能的方法。1.常用方法1.1 VotingVoting非常简单,假设对于一个二分类问题,有n个基础模型,采取投票制的方法,投票多者...

2020-04-04 18:13:52 952

原创 天池-二手车价格预测-Modeling

接上两篇:天池-二手车价格预测-EDA、天池-二手车价格预测-FE0.Modeling简介经过EDA和FE环节,原始数据已经经过相应的处理,此时可以将处理后的数据重新拆分为两个集合:特征集合和目标集合,然后,通过建模用特征预测目标。1.主要流程1.1 数据划分通常,在训练有监督的机器学习模型的时候,会将数据划分为训练集、验证集和测试集,目的是为了能够选出效果最好、泛化最佳的模型。训练...

2020-04-01 21:36:43 312

原创 天池-二手车价格预测-FE

接上一篇:天池-二手车价格预测-EDA0.FE简介特征工程(Feature Engineering,简称FE),是一个使用领域知识通过数据挖掘技术从原始数据中提取特征的过程。1.主要工作数据挖掘领域有一句很有名的话:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。由此可见,在给定数据的情况下,一个好的特征工程的重要性。显然,针对不同类型的数据,不同的模型与算法,要采用与之相...

2020-03-28 12:10:02 464

原创 天池-二手车价格预测-EDA

背景Datawhale与天池联合发起的0基础入门系列赛事第一场——零基础入门数据挖掘之二手车交易价格预测大赛。(赛事链接)0.EDA简介探索性数据分析(Exploratory Data Analysis,简称EDA),是一种分析数据集以概括其主要特征的方法,采用统计模型并通常使用可视化方法。1.前期准备数据集下载Anaconda、Python、Jupyter Notebook下载P...

2020-03-24 19:06:08 456

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除