这是知识星球「机器学习爱好者」的精华分享频道,每周最有价值的问题和知识会在这里展现给大家!
ML精彩问答
问题by「suger」:想做实际项目体验体验,有哪些网上的项目比赛可以参加呢?大佬们有啥推荐么?
优质回答by「abc」:如果想学习机器学习相关的,kaggle上面有很多适合入门的项目。国内的很多竞赛平台也经常发布各种赛事,如天池,DC,DataFountain,biendata 。不仅可以锻炼自己,还有这不菲奖金,我当时就是从小白做起,误打误撞结识了很多好朋友,也收获了不错的奖金。适合的时候做做比赛挺棒的。
问题by「小鱼儿」:前几天去面试nlp相关岗位,被问到几个问题当时没有回答的很好,想分享出来让大神解答一下:1.如何根据一段文本数据集给用户的喜好打标签?我当时只是想到判断用户的喜好肯定是搜集用户画像,分析用户的喜好还有他的社交关系,通过他的朋友的喜好来构建相似度,预测出本人的喜好等等,但是还并不清楚只是一段文本,如何给用户打标签。我现在猜想是不是可以通过文本聚类的方式,通过统计tfidf来统计关键词的重要度,进一步去根据这些关键词来选出用户感兴趣的标签呢?请牛人指点。。。2,给你一段文章,比如《红楼梦》中的某一章节,你用什么算法去评价这段话写的好还是不好?当时一点思路都没有,到底想问什么??难道是针对一段文字做情感分析?还是针对文章本身去做分类??请牛人指点一二。。。?
优质回答一by「阿龙」:第一个问题,给用户的喜好打标签,如果标签的候选项是组织好的,例如科技、音乐、教育等,这种情况下,可以理解为文本分类任务;如果标签的候选项自由度比较高,我赞同你所说的关键信息抽取,形成自由标签;第二个问题,没有清晰的思路,模糊能够想到的是,文章的流利程度(perplexity),平均语句长度,最长/最短语句长度,等特征可以放在一起,在标注数据上学习一个文章优秀度评判模型。
优质回答二by「何处去云阙」:问题一、可以找一下阅读理解相关的模型,通过一段话判断用户的喜好,除非有 我喜欢XXX之类的,这种比较明显的句子,现在流行用阅读理解加知识图谱,用有监督的方式来挖用户喜欢。 问题二、这种写的好不好完全是要通过有监督的方式来评价,因为评价标准不好说但不会有什么太多限制。
问题by「Just丶you」:使用tensorflow+cnn训练模型的时候每次进行到第二次迭代的时候就报内存不足,在网上查阅资料也设置对应的参数限定按需分配,也设置了最多使用多少gpu。数据类型大概有一千二百个分类左右,数据只要超过四十万就会出现这种内存不足的问题。这可能是什么原因呢,要如何解决呢
优质回答by「路人」:是内存不足还是gpu显存不足?如果是内存不足,和模型本身关系不大,应该是数据规模太大了,建议检查检查下代码,看看是不是什么地方数据加载量过大。
优质资源分享
-
「光城」写了一篇关于论文完整复现的文章。研究内容:U-Net网络,于是找了一篇经典论文,并学习论文及代码解读。在学习U-Net网络后,使用U-Net神经网络提取视网膜纹理血管。论文复现之医学图像应用:视网膜血管分割
-
「黄博」好多初学者提问机器学习怎么样入门,我做了一个简单的总结,我也是这样走过来的。(总结里附带学习资料)良心推荐:机器学习入门资料汇总及学习建议(2018版)
公众号:阿龙的圈子
阿龙,中科院研究生,自然语言处理爱好者,致力于勤劳致富,竞赛收入30W+,实习收入20W+。