当前搜索:

[置顶] 中文知识图谱研讨会的学习总结 (上) 图谱引入、百度知心、搜狗知立方

        知识图谱(Knowledge Graph)是当前学术界和企业界的研究热点。中文知识图谱的构建对中文信息处理和中文信息检索具有重要的价值。中国中文信息学会(CIPS)邀请了有约10家从事知识图谱研究和实践的著名高校、研究机构和企业的专家及学者有意参与并发表演讲,下面就是第一届全国中文...
阅读(25642) 评论(18)

[python] 使用scikit-learn工具计算文本TF-IDF值

在文本聚类、文本分类或者比较两个文档相似程度过程中,可能会涉及到TF-IDF值的计算。这里主要讲述基于Python的机器学习模块和开源工具:scikit-learn。文章包括:一.Scikit-learn概念 1.概念知识 2.安装软件; 二.TF-IDF基础知识 1.TF-IDF 2.举例介绍;...
阅读(28532) 评论(17)

[python] LDA处理文档主题分布及分词、词频、tfidf计算

这篇文章主要是讲述如何通过LDA处理文本内容TXT,并计算其文档主题分布,主要是核心代码为主和运行效果图形。希望文章对你有所帮助吧尤其是初学者~哎!最后感叹下时光吧,仅以此诗纪念这三年写博客的坚持和北理工的最后四个月:但行好事,莫问前程。待随满天李桃,再追学友趣事。
阅读(19361) 评论(47)

[python] LDA处理文档主题分布代码入门笔记

以前只知道LDA是个好东西,但自己并没有真正去使用过。同时,关于它的文章也非常之多,推荐大家阅读书籍《LDA漫游指南》,最近自己在学习文档主题分布和实体对齐中也尝试使用LDA进行简单的实验。这篇文章主要是讲述Python下LDA的基础用法,作为一篇入门文章,它主要源自官方文档,希望对大家有所帮助。...
阅读(19179) 评论(15)

word2vec中文相似词计算和聚类的使用说明及c语言源码

word2vec使用说明及源码介绍 1.下载地址 2.中文语料 3.参数介绍 4.计算相似词语 5.三个词预测语义语法关系 6.关键词聚类 -train Result_Country.txt 表示的是输入文件是Result_Country.txt -output vectors.bin 输出文件是...
阅读(4815) 评论(3)

word2vec词向量训练及中文文本相似度计算

本文是讲述如何使用word2vec的基础教程,文章比较基础,希望对你有所帮助! 官网C语言下载地址:http://word2vec.googlecode.com/svn/trunk/ Word2vec是Google公司在2013年开放的一款用于训练词向量的软件工具。它根据给定的语料库,通过优化后的...
阅读(67883) 评论(16)

[python] Kmeans文本聚类算法+PAC降维+Matplotlib显示聚类图像

本文主要讲述以下几点: 1.通过scikit-learn计算文本内容的tfidf并构造N*M矩阵(N个文档 M个特征词); 2.调用scikit-learn中的K-means进行文本聚类; 3.使用PAC进行降维处理,每行文本表示成两维数据; ...
阅读(12201) 评论(11)

[python] 基于k-means和tfidf的文本聚类代码简单实现

基本步骤包括: 1.使用python+selenium分析dom结构爬取百度|互动百科文本摘要信息; 2.使用jieba结巴分词对文本进行中文分词,同时插入字典关于关键词; 3.scikit-learn对文本内容进行tfidf计算并构造N*M矩阵(N...
阅读(40008) 评论(41)

[python] 使用Jieba工具中文分词及文本聚类概念

这篇文章主要是爬取百度5A景区摘要信息,再利用Jieba分词工具进行中文分词,最后提出文本聚类算法的一些概念知识。一. Selenium爬取百度百科摘要 二. Jieba中文分词 1.安装及入门介绍 2.添加自定义词典 3.关键词提取 4.对百度百科获取摘要分词 5.去除停用词 三. 基于VSM的...
阅读(37000) 评论(22)

Python简单实现基于VSM的余弦相似度计算

在知识图谱构建阶段的实体对齐和属性值决策过程中、判断一篇文章是否是你喜欢的文章、比较两篇文章的相似性等,都涉及到了向量空间模型(Vector Space Model,简称VSM)和余弦相似度计算相关知识。这篇文章主要是先叙述VSM和余弦相似度相关理论知识,然后引用阮一峰大神的例子进行解释,最后通过...
阅读(19357) 评论(3)

神经网络和机器学习基础入门分享

最近在做知识图谱实体对齐和属性对齐中,简单用了下Word2vec谷歌开源代码。本文主要讲述了机器学习的一些入门知识以及神经网络的基础概念,同时引入了很多例子进行讲解。 机器学习方法是计算机利用已有的数据(经验),得出了某种模型(迟到的规律),并利用此模型预测未来(是否迟到)的一种方法。人工神经网络...
阅读(8284) 评论(2)

[python爬虫] Selenium定向爬取海量精美图片及搜索引擎杂谈

我自认为这是自己写过博客中一篇比较优秀的文章,同时也是在深夜凌晨2点满怀着激情和愉悦之心完成的。首先通过这篇文章,你能学到以下几点: 1.可以了解Python简单爬取图片的一些思路和方法 2.学习Selenium自动、测试分析动态网页和正则表达式的区别和共同点 3.了解作者最近学习得比较多的搜索引...
阅读(7870) 评论(4)

基于VSM的命名实体识别、歧义消解和指代消解

这篇文章主要讲解基于向量空间模型(Vector Space Model)的相关应用,包括命名实体识别、实体消歧和跨文本指代消解;其最终目的是想通过它应用到知识图谱构建过程中,即实体对齐和属性对齐。目录: 一 搜狗知立方介绍 搜狗知立方框架图、实体对齐和属性值决策、爬取InfoBox介绍 二 VSM...
阅读(8371) 评论(6)

搜索引擎和知识图谱那些事 (上).基础篇

这是一篇基础性文章,主要介绍搜索引擎和知识图谱的一些原理、发展经历和应用等知识。希望文章对你有所帮助~如果有错误或不足之处,还请海涵。(参考资料见后) 目录:一.搜索引擎 (一).搜索引擎的四个时代 (二).搜索引擎的架构原理 (三).搜索引擎的简单技术分析 二.知识图谱 (一)...
阅读(31676) 评论(6)

知识图谱相关会议之观后感分享与学习总结

目录:一.面向知识图谱的信息抽取技术 二.常识知识在结构化知识库构建中的应用 三.浅谈逻辑规则在知识图谱表示学习中的应用 四.大规模知识图谱表示学习 五.知识图谱中推理技术及工具介绍 六.多语言知识图谱中的知识链接 七.知识图谱关键技术和在企业中的应用 由于我毕设是与知识图谱、实体...
阅读(9784) 评论(6)
    个人资料
    专栏达人 持之以恒
    等级:
    访问量: 253万+
    积分: 2万+
    排名: 398
    牛人博客
    博客专栏
    最新评论