大数据分析平台
文章平均质量分 77
一休Q_Q
大模型、机器学习、知识图谱、深度学习、自然语言处理
展开
-
Introducing the Knowledge Graph: things, not strings【阅读翻译】
ntroducing the Knowledge Graph: things, not strings【阅读翻译】原创 2017-03-22 10:34:10 · 6937 阅读 · 0 评论 -
知识图谱研究进展
本文首先简要回顾知识图谱的历史,探讨知识图谱研究的意义。其次,介绍知识图谱构建的关键技术,包括实体关系识别技术、知识融合技术、实体链接技术和知识推理技术等。然后,给出现有开放的知识图谱数据集的介绍。最后,给出知识图谱在情报分析中的应用案例。— 漆桂林、高桓、吴天星 东南大学计算机科学与工程学院本文节选自《情报工程》2017 年第 1 期,知识图谱专题稿件。1 知识图谱构建技术本节首先给出知识图谱的转载 2017-03-22 13:29:06 · 6934 阅读 · 0 评论 -
spark pipeline原理学习和记录
概念MLlib提供标准的机器学习算法API,能够方便的将不同的算法组合成一个独立的管道,或者叫工作流。 • DataFrame:ML API使用Sark SQL中的DataFrme作为机器学习数据集,可容纳各种类型的数据,如DataFrame可能是存储文本的不同列,特征向量,真正的标签或者预测。 • 转换器:Transformer是一种算法,可以将一个DataFrame转换成原创 2017-03-24 13:29:11 · 11909 阅读 · 1 评论 -
网页数据构建知识图谱-数据和方法
1.网页数据解析 (1)可以参看webkit内核,构建一个网页解析工具,解析dom树/视觉树/分块树,根据需求解析目标数据; (2)构建xpath类规则,提取指定目标数据; (3)解析microdata数据,可以参考pps/babytree,里面的itemscope/itemprop系列标签2.数据来源 (1)百度百科/维基百科等知识词条类 (2)豆瓣类垂直站点 (3)其它类别的站点3.原创 2017-03-22 10:19:49 · 2333 阅读 · 0 评论 -
Cloudera数据科学平台Cloudera Data Science Workbench: Self-Service Data Science for the Enterprise
Cloudera Data Science Workbench: Self-Service Data Science for the Enterprise Cloudera数据科学工作台:企业自助数据科学开发环境March 14, 2017 R Python SCALA 使用原创 2017-03-16 10:01:19 · 2560 阅读 · 1 评论