关闭
当前搜索:

[python] 使用scikit-learn工具计算文本TF-IDF值

在文本聚类、文本分类或者比较两个文档相似程度过程中,可能会涉及到TF-IDF值的计算。这里主要讲述基于Python的机器学习模块和开源工具:scikit-learn。文章包括:一.Scikit-learn概念 1.概念知识 2.安装软件; 二.TF-IDF基础知识 1.TF-IDF 2.举例介绍; 三.TF-IDF调用两个方法 1.CountVectorizer 2.TfidfTransformer 3.示例 希望文章对你有所帮助~...
阅读(21593) 评论(16)

[python] LDA处理文档主题分布及分词、词频、tfidf计算

这篇文章主要是讲述如何通过LDA处理文本内容TXT,并计算其文档主题分布,主要是核心代码为主和运行效果图形。希望文章对你有所帮助吧尤其是初学者~哎!最后感叹下时光吧,仅以此诗纪念这三年写博客的坚持和北理工的最后四个月:但行好事,莫问前程。待随满天李桃,再追学友趣事。...
阅读(16505) 评论(42)

[python] LDA处理文档主题分布代码入门笔记

以前只知道LDA是个好东西,但自己并没有真正去使用过。同时,关于它的文章也非常之多,推荐大家阅读书籍《LDA漫游指南》,最近自己在学习文档主题分布和实体对齐中也尝试使用LDA进行简单的实验。这篇文章主要是讲述Python下LDA的基础用法,作为一篇入门文章,它主要源自官方文档,希望对大家有所帮助。如果文章中有错误或不足之处,还请海涵~...
阅读(17080) 评论(15)

word2vec中文相似词计算和聚类的使用说明及c语言源码

word2vec使用说明及源码介绍 1.下载地址 2.中文语料 3.参数介绍 4.计算相似词语 5.三个词预测语义语法关系 6.关键词聚类 -train Result_Country.txt 表示的是输入文件是Result_Country.txt -output vectors.bin 输出文件是vectors.bin 基础性文章,希望对你有所帮助~...
阅读(4547) 评论(3)

word2vec词向量训练及中文文本相似度计算

本文是讲述如何使用word2vec的基础教程,文章比较基础,希望对你有所帮助! 官网C语言下载地址:http://word2vec.googlecode.com/svn/trunk/ Word2vec是Google公司在2013年开放的一款用于训练词向量的软件工具。它根据给定的语料库,通过优化后的训练模型快速有效的将一个词语表达成向量形式,其核心架构包括CBOW和Skip-gram。...
阅读(52904) 评论(16)

[python] Kmeans文本聚类算法+PAC降维+Matplotlib显示聚类图像

本文主要讲述以下几点: 1.通过scikit-learn计算文本内容的tfidf并构造N*M矩阵(N个文档 M个特征词); 2.调用scikit-learn中的K-means进行文本聚类; 3.使用PAC进行降维处理,每行文本表示成两维数据; 4.最后调用Matplotlib显示聚类效果图。...
阅读(11100) 评论(8)

[python] 基于k-means和tfidf的文本聚类代码简单实现

基本步骤包括: 1.使用python+selenium分析dom结构爬取百度|互动百科文本摘要信息; 2.使用jieba结巴分词对文本进行中文分词,同时插入字典关于关键词; 3.scikit-learn对文本内容进行tfidf计算并构造N*M矩阵(N个文档 M个特征词); 4.再使用K-means进行文本聚类(省略特征词过来降维过程); 5.最后对聚类的结果进行简单的文本处理,按类簇归类,也可以计算P/R/F特征值;...
阅读(34224) 评论(38)

[python] 使用Jieba工具中文分词及文本聚类概念

这篇文章主要是爬取百度5A景区摘要信息,再利用Jieba分词工具进行中文分词,最后提出文本聚类算法的一些概念知识。一. Selenium爬取百度百科摘要 二. Jieba中文分词 1.安装及入门介绍 2.添加自定义词典 3.关键词提取 4.对百度百科获取摘要分词 5.去除停用词 三. 基于VSM的文本聚类算法 不论如何,希望文章对你有所帮助,如果文章中有错误或不足之处,还请海涵!写文不易,且看且分析~...
阅读(33110) 评论(19)

Python简单实现基于VSM的余弦相似度计算

在知识图谱构建阶段的实体对齐和属性值决策过程中、判断一篇文章是否是你喜欢的文章、比较两篇文章的相似性等,都涉及到了向量空间模型(Vector Space Model,简称VSM)和余弦相似度计算相关知识。这篇文章主要是先叙述VSM和余弦相似度相关理论知识,然后引用阮一峰大神的例子进行解释,最后通过Python简单实现百度百科和互动百科Infobox的余弦相似度计算。基本步骤:1.分别统计两个文档的关键词 2.两篇文章的关键词合并成一个集合...希望文章对你有所帮助~...
阅读(17017) 评论(3)

[置顶] 中文知识图谱研讨会的学习总结 (上) 图谱引入、百度知心、搜狗知立方

知识图谱(Knowledge Graph)是当前学术界和企业界的研究热点。中文知识图谱的构建对中文信息处理和中文信息检索具有重要的价值。中国中文信息学会(CIPS)邀请了有约10家从事知识图谱研究和实践的著名高校、研究机构和企业的专家及学者有意参与并发表演讲,下面就是第一届全国中文知识图谱研讨会的学习笔记。其中文章目录如下所示:一.知识图谱相关引入介绍 二.NLP Techniques in Knowledge Graph —— 百度知心 三.面向知识图谱的搜索技术 —— 搜狗知立方 希望文章对你有所帮助~...
阅读(23846) 评论(10)

神经网络和机器学习基础入门分享

最近在做知识图谱实体对齐和属性对齐中,简单用了下Word2vec谷歌开源代码。本文主要讲述了机器学习的一些入门知识以及神经网络的基础概念,同时引入了很多例子进行讲解。 机器学习方法是计算机利用已有的数据(经验),得出了某种模型(迟到的规律),并利用此模型预测未来(是否迟到)的一种方法。人工神经网络(artificial neural network,缩写ANN),是一种模仿生物神经网络的结构和功能的数学模型或计算模型。希望对大家有所帮助~...
阅读(7552) 评论(2)

[python爬虫] Selenium定向爬取海量精美图片及搜索引擎杂谈

我自认为这是自己写过博客中一篇比较优秀的文章,同时也是在深夜凌晨2点满怀着激情和愉悦之心完成的。首先通过这篇文章,你能学到以下几点: 1.可以了解Python简单爬取图片的一些思路和方法 2.学习Selenium自动、测试分析动态网页和正则表达式的区别和共同点 3.了解作者最近学习得比较多的搜索引擎和知识图谱的整体框架 4.同时作者最近找工作,里面的一些杂谈和建议也许对即将成为应届生的你有所帮助 5.当然,最重要的是你也可以尝试使用这个爬虫去爬取自己比较喜欢的图片 总之,希望文章对你有所帮助。如果作者又不足...
阅读(7191) 评论(4)

基于VSM的命名实体识别、歧义消解和指代消解

这篇文章主要讲解基于向量空间模型(Vector Space Model)的相关应用,包括命名实体识别、实体消歧和跨文本指代消解;其最终目的是想通过它应用到知识图谱构建过程中,即实体对齐和属性对齐。目录: 一 搜狗知立方介绍 搜狗知立方框架图、实体对齐和属性值决策、爬取InfoBox介绍 二 VSM相似度计算 基本概念、 向量空间模型VSM、TF-IDF、向量夹角cos相似度、实体相似度计算 希望文章对你有所帮助,从晚上2点写到早上6点,不容易啊!且看且珍惜吧!...
阅读(7325) 评论(6)

搜索引擎和知识图谱那些事 (上).基础篇

这是一篇基础性文章,主要介绍搜索引擎和知识图谱的一些原理、发展经历和应用等知识。希望文章对你有所帮助~如果有错误或不足之处,还请海涵。(参考资料见后) 目录:一.搜索引擎 (一).搜索引擎的四个时代 (二).搜索引擎的架构原理 (三).搜索引擎的简单技术分析 二.知识图谱 (一).知识图谱的应用 (二).知识图谱的框架 (三).搜狗知立方...
阅读(29163) 评论(6)

知识图谱相关会议之观后感分享与学习总结

目录:一.面向知识图谱的信息抽取技术 二.常识知识在结构化知识库构建中的应用 三.浅谈逻辑规则在知识图谱表示学习中的应用 四.大规模知识图谱表示学习 五.知识图谱中推理技术及工具介绍 六.多语言知识图谱中的知识链接 七.知识图谱关键技术和在企业中的应用 由于我毕设是与知识图谱、实体消歧、实体对齐、知识集成相关的,所以去听了知识图谱相关的报告;报告中采用手写笔记,所以没有相应的PPT和原图(遗憾),很多图是我自己画的找的,可能存在遗漏或表述不清的地方,请海涵~很多算法还在学习研究中,最后希望文...
阅读(9108) 评论(6)
    个人资料
    • 访问:2326264次
    • 积分:21610
    • 等级:
    • 排名:第413名
    • 原创:270篇
    • 转载:10篇
    • 译文:0篇
    • 评论:1651条
    个人博客
    作者:杨秀璋
    学历:本科-北京理工大学
               硕士-北京理工大学
    现任教于贵财财经大学信息学院
    http://www.eastmountyxz.com

    简介:自幼受贵州大山的熏陶,养成了诚实质朴的性格。经过寒窗苦读,考入BIT,为完成自己的教师梦,放弃IT、航天等工作,成为贵财一名大学教师,并想把自己所学所感真心传授给自己的学生,帮助更多陌生人。

    贵州纵美路迢迢,
    为负劳心此一遭。
    收得破书三四本,
    也堪将去教尔曹。

    娜美人生,醉美生活。
    他和她经历风雨,慢慢变老。
    博客专栏
    牛人博客
    最新评论