自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(70)
  • 收藏
  • 关注

原创 【培训笔记】ADL114期知识图谱前沿讲习班学习笔记三

王鑫:知识图谱数据管理——基础与前沿王鑫老师报告的内容是围绕知识图谱的数据存储与管理展开的,首先介绍了语义网的概念。语义网中的概念标准化通常是用W3C标准完成的,语义网中的每一个概念都是一个uri,每一条数据都是Linked Data。介绍一个网站:http://lod-cloud.net/能够生成知识图谱云图。关于知识图谱的数据管理路线图:知识图谱的数据模型包括RDF图模型和属性图模型;知识图谱的查询语言,有关RDF图模型的查询语言为SPARQL知识图谱的存储管理知识图谱的查询操作

2020-12-27 10:04:08 396 2

原创 【培训笔记】ADL114期知识图谱前沿讲习班学习笔记二

石川: GNN and its application in knowledge graphwww.shichuan.org有关知识图谱的网络表示学习和关联预测主要分为两种方法:shallow model:随机游走,矩阵分解Deep model:DNGR,SDNE(Autoencoder), GNN based model(GCN, graphsage)石川老师介绍了有关知识图谱的若干个可能的研究方向:有关知识的表示学习,可以分为表示的空间、映射函数,编码的模型,可视化等知识的获取,包括

2020-12-25 21:41:52 316 7

原创 【培训笔记】ADL114期知识图谱前沿讲习班学习笔记一

本周有幸参加了ADL114期知识图谱前沿讲习班,地点在北京市海淀区中关村中国科学院计算技术研究所,去了之后再次感觉学术的天花板挺高,自己很渺小。本次ADL114期知识图谱前沿学习讲习班主要是围绕知识表示、数据管理、知识增强、知识理解、认知图谱、认知智能等几个方面展开,好在去之前已经对报告的几位老师的研究背景有所了解,并且也研读过一些知识图谱的相关论文。但亲历了培训,仍有不少新的收获。Heng Ji: Event-Centric Natural Language UnderstandingHeng J

2020-12-24 20:34:41 456 2

原创 【CS330】深度多任务和元学习课程笔记二

Leture 3Recap probabilistic formulation of meta-learning(回顾元学习的概率公式)General recipe of meta-learning algorithms(不同元学习方法的一般方法)How to evaluate a meta-learning algorithm?5-way,1-shot image classification(给出五个分类的图片,然后对一个新的example进行分类)能够将图片分类问题替换为任何

2020-10-28 16:31:29 218

原创 【CS330】深度多任务和元学习课程笔记一

Lecture 1 IntroductionWhy should we care about deep multi-task & meta-learning?deep learning allows us to handle unstructured inputs(pixels, languages, sensor readings, etc.)without hand-engineering features, with less domain knowledgeLarge, div

2020-10-25 11:20:53 407

原创 【CS520】斯坦福知识图谱课程学习笔记三

第六讲 How do users interact with knowledge graph?Natural Language Understanding句子理解的关键信号点:语句的信号词句法解析树上下文的语义NLP challenges如何从少量的数据中快速学习如何从文本中挖掘语义关系如何将已知的实体进行更为可靠的分类将上下文语义更好的融入单词自适应的自我解释架构在机器学习算法中,没有固定一成不变的数据集,因此需要设计不断适应的可解释性框架受到人群之间沟通的启

2020-07-21 09:46:49 265

原创 【CS520】斯坦福知识图谱课程学习笔记二

第三讲 What are some advanced knowledge graph?The Diffbot knowledge graph一个自动化从网页上爬取内容,然后构建为知识图谱的公司拥有100亿的实体,1个T的事实数据每月新增约150M的实体占比最高的实体类型:人,组织,地点,产品,事件,文章,讨论,图片…在海湾地区有两个数据中心可通过API、Dashboard、和数据整合应用该知识图谱How the Diffbot KG is built页面类型分类视觉特征提取

2020-07-08 09:55:01 431

原创 【CS520】斯坦福知识图谱课程学习笔记一

小破站:https://www.bilibili.com/video/BV1D5411W7Ri/Seminar Outline:What is it?How do create it?How do we reason with it?How do we use it modern AI algorithms?Where is the research?第一讲 What is a knowledge graph?knowledge in natural language can easil

2020-06-28 16:08:15 513

原创 【CS224n】斯坦福自然语言处理课程学习笔记二

第四讲 Word Window 分类与神经网络分类:正则化处理正则化能够有效防止过拟合,当我们的特征较多时,很容易导致模型过拟合,或者引起指数爆炸,而正则化操作能够使得在某些具体的点拟合较差,但总体的拟合曲线更加平滑,并且泛化性能更好。词窗口分类词含义的定义:词的含义并不是单一定义的,无法在不结合上下文的状态下确定一个词的真正含义,因此,一个单词的真正含义取决于窗口内的上下文的词。如...

2020-02-08 16:18:24 259

原创 【CS224n】斯坦福自然语言处理课程学习笔记一

最近是SARI病毒肆虐,身处疫区的我已经在家自我隔离十多天了,家乡的管控做的非常严格,小区已经禁止出入好几天了,于是在家终于闲不住的我,决定把NLP的课程好好刷一遍。第一讲 NLP和深度学习入门自然语言处理的应用领域:拼写检查,关键词搜索,语义理解,机器翻译,口语对话系统,知识问答等等。人类语言的特别之处:指向性明确,具有表现力的信号词系统,大脑具有连续的激活系统,语言传递可以借助不同的载...

2020-02-01 18:21:10 358

原创 【参数学习】深度学习超参数调整

batch_size、epoch、iteration是深度学习中常见的几个超参数:https://zhuanlan.zhihu.com/p/43541982https://www.zhihu.com/question/36113643/answer/465142018(1)batchsize:每批数据量的大小。DL通常用SGD的优化算法进行训练,也就是一次(1 个iteration)一起...

2019-12-30 20:13:43 332

原创 【ImportError】cannot import name 'InsecureRequestWarning' from 'requests.packages.urllib3.exceptions'

Traceback (most recent call last): File "/home/fcc/anaconda3/lib/python3.7/site-packages/conda/gateways/connection/__init__.py", line 26, in <module> from requests.packages.urllib3...

2019-12-04 10:15:07 2431 1

原创 【会议笔记】第五届中国健康信息处理大会(CHIP2019)Day03

特邀报告张彦春 智慧医疗:医学大数据挖掘及AI在病人监测预警及健康管理的创新应用张老师介绍了一个平台EEG,并且列举了一些EEG在神经系统疾病(癫痫,大脑肿瘤,睡眠疾病,孤独症,痴呆等)领域的应用。刘雷 基于认知智能的医学辅助决策“AI”最大的局限是缺乏人类基本的常识,因此研究致力于认知智能。首先提出了精准医学本体和语义表示标准(PMO),其中包括基因、人类表现型、疾病三个类型的...

2019-11-26 15:54:14 475

原创 【会议笔记】第五届中国健康信息处理大会(CHIP2019)Day02

主会议特邀报告王才有 医疗信息标准与大数据标准辨析王老师分享过程由于现场设备原因,没有播放PPT,王老师进行了二十分钟的无PPT演讲,但是演讲非常精彩。在王老师的分享中,有几句说的印象很深刻的话。王老师给我们解释了作为医院等医疗机构,有许多数据无法共享的原因,即没有语境的数据,是无法被理解的。因为在疾病或健康医疗研究中,许多数据是有多个语境背景条件下所产生的,因此共享的数据很容易缺失语境...

2019-11-26 14:46:47 423

原创 【会议笔记】第五届中国健康信息处理大会(CHIP2019)Day01

Day01 前沿讲习班第一天的前沿讲习班邀请了几位企业的大牛来讲解工业界的知识图谱或者生物信息的进展方式倪渊 平安医疗 “基于知识图谱的智能临床辅助决策技术和实践”医生辅助决策场景首先介绍了医生辅助的决策场景,从病人主诉开始,医生会询问病人的其他症状,然后进行检查检验,医生诊断,医生治疗,诊疗结束后,会据证搜索,临床证据分析,医生还会分析当下热点研究方向,进行热点主体识别,最后还会对...

2019-11-26 13:52:46 733

原创 【Spark】Spark的安装与部署

这段时间太忙,现在终于有点时间补充一下近段日子来的学习笔记,下面讲一讲Spark的安装与部署。Spark它是一个快速的,通用的集群计算系统。它对Java,Scala,Python和R提供了高层API,并且有一个经优化的支持通用执行图计算的引擎。它还支持一组丰富的高级工具,包括用于 SQL 和结构化数据处理的 Spark SQL,用于机器学习的 MLlib,用于图计算的 GraphX 和 ...

2019-11-15 14:40:42 993

原创 【排序算法】基于python的各个排序算法以及时间复杂度和稳定性

排序算法的时间复杂度排序算法时间复杂度稳定性冒泡排序O(n2)稳定插入排序O(n2)稳定归并排序O(N*logN)稳定选择排序O(n2)不稳定快速排序O(N*logN)不稳定堆排序O(N*logN)不稳定排序算法的python实现# 冒泡def maopao(li): for i in range(le...

2019-09-04 11:10:20 429 2

原创 【django学习笔记】03 Django项目的MVT模式

MVC模式MVC全名是 Model View Controller,其中MVC分别代表:M:Model,数据处理V:View,界面显示C:Controller,逻辑处理MVC模式是一种软件设计典范,用一种业务逻辑、数据、界面分离显示的方法组织代码,将业务逻辑聚集到一个部件里面,在改进和个性化定制界面及用户交互的同时,不需要重新编写业务逻辑。MVC被独特的发展起来,并且应用于映射传统输...

2019-08-10 10:45:42 199

原创 【培训笔记】高校人工智能训练营讲座笔记

数据驱动的发电过程智能化——房方(华电控计院长)(0722)背景国家电网公司每天获得的数据量:10TB国家电网公司数据类型:用户偏好数据,清洁能源数据,未来气象数据,手机app数据……数据分析与诊断技术结构化数据:实时数据(发电机、汽轮机、变压器……)非实时数据(故障类别、日志……)非结构化数据:实时数据(音频文件、图像、视频文件……)非实时数据(技术资料、图片文件……)发一度...

2019-08-01 15:53:40 379

原创 【培训笔记】高校人工智能训练营笔记0725-26

0725 卷积神经网络卷积神经网络——王文中多通道卷积:图像的通道有3层,则卷积核的个数有3个,分别在每个通道做卷积,卷积结束后进行加和设计一个卷积神经网络需要确定的结构参数卷积层a) 每一层卷积核的数目n(确定了该层输出的特征图的通道数目)b) 每一层卷积核的大小fc) 每一层卷积的跨度sd) 每一层卷积的非线性相应函数ReLUPooling层a) Pooling区域...

2019-08-01 15:07:47 202

原创 【培训笔记】高校人工智能训练营笔记0724

0724 深度学习基础深度学习基础——王文中假设空间:算法根据训练数据在假设空间(有许多函数假设)中找到最好的假设,能够近似的表达最能符合训练数据的假设。线性分类器:传统:直接将特征用于数据分类神经网络:将特征先进行Logistic Regression非线性变换,训练出新的特征后,再将新的特征用于线性变换深度学习:对原始数据(原始输入特征)做多层次非线性变换,得到新的特征。...

2019-08-01 15:03:04 215

原创 【培训笔记】高校人工智能训练营笔记0723

0723 机器学习与深度学习基础机器学习基础——(中科类脑)数学基础向量的L1范数:数据之间的度量能够产生数据的稀疏性向量的内积用距离表示: (x-y)^T (x-y)矩阵的二范数是矩阵的奇异值之和:〖||A||〗_F矩阵的乘法即为矩阵内的向量内积的过程张量(tensor):如果一组数组中的元素分布在若干维坐标的规则网络中,就将其称为张量,例如一幅图,有3个通道,是3维张量...

2019-08-01 14:51:10 268

原创 【会议笔记】第十四届中文信息学会暑期学校《前沿技术讲习班》笔记二

第14期 问答与对话-技术与系统0714 基于深度学习的机器阅读理解以及问答系统会议内容:机器阅读理解以及不同类型的问答系统和方法主讲人:崔一鸣(科大讯飞)唐都钰(微软亚洲研究院)段楠(微软亚洲研究院)主讲内容:基于深度学习的机器阅读理解,覆盖了目前主流的机器阅读理解任务,并对每个任务具有代表性的数据集和经典模型进行了详细的介绍;对于不同的问答系统和方法进行了介绍。印象较深的内容:问...

2019-07-16 16:42:03 257

原创 【会议笔记】第十四届中文信息学会暑期学校《前沿技术讲习班》笔记一

第十三期 问答与对话——理论与基础0712 面向自然语言处理的深度学习基础会议内容:深度学习基础理论与实践主讲人:邱锡鹏(复旦大学)颜航(复旦大学)主讲内容:主要介绍深度学习的基础知识以及卷积神经网络、循环神经网络、注意力机制等型,并且介绍了开源工具fastNLP,利用fastNLP来讲述如何实现具体的自然语言模型。印象较深的内容:多分类问题:处理多分类问题时有三种方法,但前两种“一...

2019-07-16 11:27:40 266

原创 【数据分析】Kaggle项目之共享单车数据分析(三)

选择特征值根据前面的观察,决定将时段、温度、湿度、年份、月份、季节、天气等级、风速、星期几、是否工作日、是否假日11项作为特征值由于CART决策树使用二分类,所以讲多类别型数据使用one-hot转化为二分类类型dummies_month=pd.get_dummies(Bike_data['month'],prefix='month')dummies_season=pd.get_dummie...

2019-07-10 14:26:22 2439

原创 【数据分析】Kaggle项目之共享单车数据分析(二)

数据分析逐项展示时段对租赁数量的影响workingday_df=Bike_data[Bike_data['workingday']==1]workingday_df=workingday_df.groupby(['hour'],as_index=True).agg({ 'casual':'mean','registered':'mean','count':'mean'})nwor...

2019-07-10 11:04:42 2660

原创 【书评】读了一本书

我大概花了一周的时间读完了这本书,内容不多,但是却很难让人短时间内读完,我花在这本书上的时间,就像一块打碎的镜子,我只能用一点破碎零散的镜片去慢慢的啃下来这本书,因为在我眼里,这本书实在是太黑暗了。看完这本书,我勉强找到了几个能让我觉得在他们的世界里还是有美好的事物存在的,一个是房思琪和刘怡婷彼此真挚而热烈的友谊,她们虽然没有血缘之亲,但是却共享着同一个灵魂,两个人的思维、见地、爱好与生活彼此交...

2019-07-05 10:50:17 2379 3

原创 【数据分析】Kaggle项目之共享单车数据分析(一)

项目背景自行车共享系统是一种租赁自行车的方法,注册会员、租车、还车都将通过城市中的站点网络自动完成,通过这个系统人们可以根据需要从一个地方租赁一辆自行车然后骑到自己的目的地归还。需要结合历史天气数据下的使用模式,来预测华盛顿共享自行车的租赁需求数据提供了跨越两年的每小时租赁数据,包含天气信息和日期信息,训练集由每月前19天的数据组成,测试集是每月第二十天到月底的数据提出问题通过测试集中...

2019-07-05 09:39:03 9421

原创 【Python基础】面向对象

面向对象对象(实例)由数据及能对其实施的操作所构成的封装体类类描述了对象的特征(数据和操作)类的定义(抽象)万类之源——objectself——表明调用这个方法的对象本身,在调用该方法的时候不需要实参与self对应实例的创建class Dog(object): def setName(self,name): self.name = name def greet(sel...

2019-07-02 16:33:46 195

原创 【Python基础】Python语法基础

标识符首字符可以是字母或下划线其余可以是字幕、下划线、数字大小写敏感关键字关键字是Python语言的关键组成部分,不可随便作为其他对象的标识符andasassertbreakclasscontinuedefdelelifelseexceptexecfinallyforfromglobalifimportinislambda...

2019-06-30 20:27:32 129

原创 【数据分析】Kaggle项目之电影数据分析

项目背景:客户是一个电影制作的新公司,他们将制作一部新电影。客户想确保电影能够成功,从而使新公司立足市场。提出问题:电影类型是如何随着时间的推移发生变化的?Universal Pictures 和 Paramount Pictures之间的对比情况如何?改编电影和原创电影的对比情况如何?电影页面查看次数与评分次数的相关关系?理解数据:数据来源数据来源于Kaggle项目数据...

2019-06-28 15:15:35 3836 5

原创 【PaperReading】PHI-base: a new interface and further additions for themulti-species pathogen–host int

《PHI-base: a new interface and further additions for themulti-species pathogen–host interactions database》《PHI-base:一个新的接口和进一步增加的多物种病原体-宿主相互作用数据库》摘要病原体-宿主相互作用数据库(PHI-base)可在www.phi-base.org上获得。phi_...

2019-06-23 14:41:23 706

原创 【PaperReading】fusionDB:assessing microbial diversity and environmental

《fusionDB:assessing microbial diversity and environmental preferences via functional similarity networks》《fusionDB:通过功能相似网络评估微生物多样性和环境偏好》摘要微生物功能多样化是由环境因素驱动的,即生活在同一环境生态位的微生物往往比生活在不同环境中的微生物在功能上更相似。在某...

2019-06-21 15:49:53 223

原创 【微生物相关数据库】NAR database issue

最近老师要求完成一个数据库的设计,于是笔者在NAR database issue了解了一下微生物相关的数据库,按照关键词检索,找到了许多微生物相关的数据库,其中看到了一些有意思的或者在未来学习中可能会用到的相关数据库,在此罗列,仅供参考。【DESM】portal for microbial knowledge exploration systems微生物产生的化合物的数据库【mVOC 2....

2019-06-20 19:34:25 3358

原创 【PaperReading】CancerMine: a literature-mined resource for drivers, oncogenes and tumor suppressors i

《CancerMine: a literature-mined resource for drivers, oncogenes and tumor suppressors in cancer》癌症基因:为癌症的驱动因素、致癌基因和肿瘤抑制因子而开发的文献资源来自癌症患者的肿瘤经常被遗传分析,以了解疾病背后的驱动力。我们提出了癌症资源,一个文本挖掘和定期更新的数据库驱动器,致癌基因和肿瘤抑制在不...

2019-05-29 21:57:39 435

原创 【机器学习】多分类任务的性能评价——宏平均和微平均

很多时候我们有多个二分类混淆矩阵,例如进行多次训练/测试,每次得到一个混淆矩阵;或是在多个数据集上进行训练/测试,希望估计算法的“全局”性能;甚或是执行多分类任务,每两两类别的组合都对应一个混淆矩阵。总之,我们希望在n个二分类混淆矩阵上综合考察查准率和查全率。二分类的分类结果混淆矩阵真实情况/预测结果正例反例正例TP(真正例)FN(假反例)反例FP(假正例)...

2019-05-24 19:49:10 9502 5

原创 【机器学习】机器学习中训练集、验证集和测试集的划分及交叉验证

通常,在训练有监督的机器学习模型的时候,会将数据划分为训练集、验证集和测试集,划分比例一般为6:2:2。对原始数据进行三个集合的划分,是为了能够选出效果最好的,泛化能力最佳的模型,验证集并不是必须的。一个形象的比喻训练集——课本,学生通过课本里的内容来掌握知识验证集——作业,通过作业可以知道不同学生学习情况、进步的速度快慢测试集——考试,考题平常没有见过,考察学生举一反三的能力训练集(T...

2019-05-24 14:57:19 7191

原创 【PaperReading】Eliciting Disease Data from Wikipedia Articles

《Eliciting Disease Data from Wikipedia Articles》从Wikipedia文章中获取疾病数据摘要传统的疾病监测系统存在一些缺点,包括报告滞后和过时的技术,这些缺点导致了基于互联网的疾病监测系统的发展。互联网系统对于疾病爆发尤其具有吸引力,因为它们可以近乎实时地提供数据,并且可以由全球各地的人员进行验证。但是,大多数现有系统都侧重于疾病监测,并没有为决...

2019-05-05 10:48:17 160 2

原创 【PaperReading】Analysis of reference sources used in drug-related Wikipedia articles

《Analysis of reference sources used in drug-related Wikipedia articles》分析与药品有关的维基百科文章中使用的参考来源介绍维基百科是一个开放获取的在线百科全书,由用户[1]共同编写和编辑。维基百科包含各种主题的信息,包括与健康相关的主题。药剂师、药学专业学生和其他药物信息搜索者在进行在线搜索时可能会遇到Wikipedia页面...

2019-05-03 20:40:19 130

原创 【PaperReading】Global Disease Monitoring and Forecasting with Wikipedia

《Global Disease Monitoring and Forecasting with Wikipedia》使用Wikipedia进行全球疾病监测和预测摘要传染病是对公共卫生、经济稳定和其他关键社会结构的主要威胁。减轻这些影响的努力依赖于准确和及时的监测,以衡量疾病的风险和进展。传统的、以生物为重点的监测技术是准确的,但成本高、速度慢;作为回应,基于社交网络数据的新技术,如社交媒体和...

2019-05-03 19:41:49 208

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除