【阅读材料精选 From-to-Date:2021.03.01~2021.05.31】
重点内容
【 使用GAN擦除文档印章】
github:github:https://github.com/tommyMessi/remove-stamp
note:可以在版面分析环节中增加stamp地区的定位,一旦定位到,就调用该模型对印章区域进行处理。
**【摘要抽取生成】
web1(法研杯):https://kexue.fm/archives/8046
github2(新闻摘要):https://github.com/LowinLi/Text-Summarizer-Pytorch-Chinese
【场景文字检测/识别相关文献/代码集】
github:
【jurigged:Python函数“热补丁”工具包,可在运行时更新函数】
github:github.com/breuleux/jurigged
【detectron2:用Detectron2做文档版面分析】
github:https://github.com/hpanwar08/detectron2
note:需测试
【网络公开资源OCR】
github:https://github.com/zacharywhitley/awesome-ocr
note:关注手写部分
【PyTorch Profiler:新的性能分析工具】
web:https://pytorch.org/blog/introducing-pytorch-profiler-the-new-and-improved-performance-tool/
【信息检索实战教程资料:从词袋到BERT模型】
github:github.com/terrier-org/ecir2021tutorial
【清洗对话数据的多线程框架,针对知乎、微博、贴吧等】
github:github.com/lemon234071/clean-dialog
【文本风格迁移文献阅读列表】
github:github.com/zhijing-jin/Text_Style_Transfer_Survey
【Contract Understanding Atticus Dataset(CUAD):法律合同理解基准数据集,涉及数百份法律合同,13,000多个标注,由法律专家手工标注】
paper:https://arxiv.org/abs/2103.06268
dataset:https://zenodo.org/record/4595826
github:https://github.com/TheAtticusProject/cuad/
【Excel2LaTeX】
github:https://github.com/krlmlr/Excel2LaTeX
note:感觉可以用于生成表格来模拟对应框线位置,也许可以用于表格框线检测模型的训练。
模型压缩
模型安全与加密
NLP
【中文机器阅读理解 冠军/亚军代码及预训练的MRC模型】
github:github.com/basketballandlearn/MRC_Competition_Dureader
【NLP论文索引和实现仓库】
web:https://index.quantumstat.com
【从语言模型到Seq2Seq:Transformer如戏,全靠Mask】
web:https://kexue.fm/archives/6933
【微软机器学习集锦】
https://github.com/microsoft/machine-learning-collection
【synonyms:中文近义词工具包】
github:https://github.com/chatopera/Synonyms
【NLP总览】
github:https://github.com/km1994/NLP-Interview-Notes
【GPT Neo:公开发布的GPT-3同等复现预训练模型(1.3B & 2.7B),可在Colab上完成微调】
github:github.com/EleutherAI/gpt-neo/
【用于生成阅读理解问题的NLP系统】
github:github.com/AMontgomerie/question_generator
网络课堂
【分布式理论】
web:https://zhuanlan.zhihu.com/p/129912419
【基于知识图谱的医疗诊断知识问答系统】
github:https://github.com/wangle1218/KBQA-for-Diagnosis
【deeplearning.ai深度学习课程习题作业参考答案】
github:github.com/HeroKillerEver/coursera-deep-learning
【人工智能、机器学习、深度学习、搜索系统、推荐系统、广告系统学习资料干货汇总】
github:https://github.com/cbamls/AI_Tutorial
【python爬虫教程系列、从0到1学习python爬虫】
github:github.com/wistbean/learn_python3_spider
【LaTeX免费入门教程】
web:https://www.learnlatex.org/en/
文献
【推荐系统文献大列表】
GitHub:github.com/RUCAIBox/Awesome-RSPapers
模型相关
【模型结构图解集锦】
github:https://github.com/dvgodoy/dl-visuals
数据集
【Optical Flow Algorithm Resources:光流算法相关资源集】
github:github.com/antran89/awesome-optical-flow-algorithm
【Chinese Scientific Literature Dataset:中文科学文献数据集(CSL)】
github:github.com/P01son6415/CSL
【推荐系统数据集列表】
https://github.com/RUCAIBox/RecSysDatasets
【餐馆点评应用评论语料-带情感预测的】
GitHub:https://github.com/Meituan-Dianping/asap/tree/master/data
【CLUECorpus2020大型高质量中文语料】
github:https://github.com/CLUEbenchmark/CLUECorpus2020
web:https://arxiv.org/pdf/2003.01355
note:有个small版可以公开下载,但是要语料全集需要发邮件联系。
待尝试
【基于雷达的睡眠跟踪和咳嗽/打鼾检测算法】
web:https://ai.googleblog.com/2021/03/contactless-sleep-sensing-in-nest-hub.html
额外阅读
【SimDeblur:PyTorch图片/视频去模糊框架】
github:github.com/ljzycmd/SimDeblur
【工具集】
github:https://github.com/r0eXpeR/Online_Tools
【使用贝塞斯达经典游戏配音训练出的,句到配音的生成器】
github:https://github.com/DanRuta/xVA-Synth
【用lego做一个显微镜】
github :github.com/tobetz/LegoMicroscope
【choreomaster人工智能编舞】
web:https://zhuanlan.zhihu.com/p/376254323
以上内容摘自新浪微博:@爱可可-爱生活
https://weibo.com/fly51fly?refer_flag=1005055010_&is