数据处理
文章平均质量分 70
adolhung
这个作者很懒,什么都没留下…
展开
-
【阅读材料及笔记 From-to-Date:2021.09.01~2022.01.31】
【阅读材料精选 From-to-Date:2021.09.01~2022.01.31】重点内容【梯度弥散与梯度爆炸原理】web:https://www.cnblogs.com/yangmang/p/7477802.html模型压缩模型安全与加密NLP网络课堂文献模型相关数据集待尝试额外阅读以上部分内容摘自新浪微博:@爱可可-爱生活https://weibo.com/fly51fly?refer_flag=1005055010_&is...原创 2021-09-07 17:34:13 · 132 阅读 · 0 评论 -
【阅读材料精选 From-to-Date:2021.06.01~2021.07.31】
【阅读材料精选 From-to-Date:2020.06.01~2020.07.31】重点内容【PyTorch 1.9发布,主打手机端支持】web:https://pytorch.org/blog/pytorch-1.9-released/【基于CPM模型的中文文本生成,可用于作文、小说、新闻、古诗等中文生成任务】github:github.com/yangjianxin1/CPM【中文医学语言理解测评(CBLUE),包括数据集、基准模型、排行榜】github:https://github.c原创 2021-06-18 14:30:01 · 326 阅读 · 0 评论 -
【阅读材料精选 From-to-Date:2021.03.01~2021.05.31】
【阅读材料精选 From-to-Date:2021.03.01~2021.04.30】重点内容模型压缩模型安全与加密NLP网络课堂文献模型相关数据集【CLUECorpus2020大型高质量中文语料】github:https://github.com/CLUEbenchmark/CLUECorpus2020web:https://arxiv.org/pdf/2003.01355note:有个small版可以公开下载,但是要语料全集需要发邮件联系。待尝试以上内容摘自新浪微博:@爱可可原创 2021-03-04 11:27:07 · 544 阅读 · 1 评论 -
分词,筛选topn字词,并建立词向量记算相似度的记录
分词并简要记算相似度的流程记录:1.分词:import xlrd book = xlrd.open_workbook('antman.xlsx') sheet = book.sheet_by_index(0) # cols = sheet.ncols intents = [sheet.col_values(i) for i in range(sheet.ncols)]原创 2021-02-05 09:28:38 · 236 阅读 · 0 评论