数据挖掘
零一睡不醒
人生苦短
展开
-
读《基于文档主题结构的关键词抽取方法研究》有感(一)
没错,这是一篇读后感。今天拜读了刘知远老师的博士毕业论文。一、研究内容:1、基于文档内部信息,利用文档的词聚类算法构建文档主题,进行关键词抽取。2、基于文档外部信息,利用隐含主题模型构建文档主题,进行关键词抽取。3、综合利用隐含主题模型和文档结构信息,进行关键词抽取。4、基于文档与关键词主题一致性的前提,提出基于机器翻译模型的关键词抽取方法。二、文中相关论文1、Page ...原创 2018-11-20 14:16:51 · 836 阅读 · 0 评论 -
文本关键词提取方法综述
一、提取过程总共分两步,第一步对文章分词、去停用词、pos tag 之后,得到候选关键词列表L;第二步,使用关键词提取算法提取关键词。最后得到的关键词应满足以下三个条件:1·、Understandable. The keyphrases are understandable to people. This indicates the extracted keyphrases shoul...原创 2018-11-29 10:26:49 · 7407 阅读 · 0 评论 -
gensim word2vec 使用
一、训练 Word2Vec模型:sentences = word2vec.LineSentence('./in_the_name_of_people_segment.txt')model = word2vec.Word2Vec(sentences, hs=1,min_count=1,window=3,size=100)二、模型的使用:word2vec本质上就是每个词语的词向量表达。...原创 2018-11-26 14:18:06 · 528 阅读 · 0 评论 -
关于word2vec和词向量的理解
1、如何产生词向量 word embedding原始语料某个汉字的one-hot编码向量(1*V)和word2vec模型中间参数矩阵W (V*N)相乘得到词向量 1*N N<<V。因为每个汉字有自己的one-hot编码,所以不存在语料库里面不同地方的相同汉字的词向量不一样的问题。2、训练得到的word2vec 模型的意义是什么?3、弊端word2vec:与一般的共现...原创 2018-11-27 11:07:55 · 932 阅读 · 0 评论 -
gensim 使用三 LDA模型使用
1、语料的处理:通过corpora.Dictionary把原始文本数据转为字典。将用字符串表示的文档转换为用id表示的文档向量。因为输入数据为csv中的一列数据,故先进行预处理使其变为train[]样式的数据。stopwords = [line.strip() for line in open('./stopword.txt', 'r',encoding='utf-8').readlin...原创 2018-11-30 14:37:19 · 7173 阅读 · 11 评论 -
LDA (一) 文本关键词提取
一、算法原理:使用gensim自带的LDAmodel。使用方法原理是:候选的关键词与抽取的主题计算相似度并进行排序,得到最终的关键词。关键点,候选关键词和抽取的主题如何计算相似度?最简单的想法是:每个主题由N个单词*概率 的集合来代表。每个文本属于k个主题,把k个主题所包含的词赋予该文档,便得到每个文档的候选词关键词。如果文档分词后得到的词语在候选关键词中,那么将其作为关键词提取出来。(候选关键词...原创 2018-11-30 15:39:38 · 12411 阅读 · 3 评论 -
2018-12-5
今日总结1、用DataFrame如何循环添加一行数据。2、构建全0的二维numpy数组,dtype如何设定为float163、完成问题,不要只求助于‘import’,算法需要自己实现才能灵活使用。...原创 2018-12-06 00:17:50 · 89 阅读 · 0 评论 -
关于scarpy
一、settings的配置https://blog.csdn.net/python36/article/details/80360430二、scrapy 框架三、scrapy-redis 框架https://blog.csdn.net/zwq912318834/article/details/78854571...原创 2019-04-03 09:40:53 · 127 阅读 · 0 评论 -
UserCF 和 ItemCF
UserCF适合用于新闻推荐的另一个原因是从技术角度考量的。因为作为一种物品,新闻的更新非常快,每时每刻都有新内容出现,而ItemCF需要维护一张物品相关度的表,如果物品更新很快,那么这张表也需要很快更新,这在技术上很难实现。绝大多数物品相关度表都只能做到一天一次更新,这在新闻领域是不可以接受的。而UserCF只需要用户相似性表,虽然UserCF对于新用户也需要更新相似度表,但在新闻网...原创 2019-04-09 13:39:10 · 559 阅读 · 0 评论 -
数据挖掘算法汇总
1 Negative log-likelihood function原创 2019-04-16 14:08:11 · 357 阅读 · 0 评论 -
倒排索引
倒排索引(inverted index)是现代搜索引擎的核心技术之一,其核心目的是将从大量文档中查找包含某些词的文档集合这一任务用 O(1)或 O(log n)的时间复杂度[2]完成,其中 n 为索引中的文档数目。也就是说,利用倒排索引技术,可以实现与文档集大小基本无关的检索复杂度,这一点对于海量内容的检索来说至关重要。...原创 2019-05-13 09:21:41 · 1402 阅读 · 0 评论 -
《计算广告》笔记
1 VSM 空间向量模型 用于信息检索在离线索引阶段,需要对文档集合分词,并按照 BoW 模型表示得到每个文档的 TF-IDF 矢量,对分词后的文档集合建立倒排索引。当在线的查询到来时,也进行分词,从倒排索引中查出所有符合要求的文档候选,并对其中的每个候选评价其与查询的余弦距离,按距离由小到大进行排序。这样的一个基本框架也适用于广告这一大规摸数据挖掘问题。虽然 VSM 不是实际系统中对检索候...原创 2019-05-13 10:17:37 · 317 阅读 · 0 评论 -
如何从当前语料库生成自定义的逆文档频率(IDF)文件(三)
第一篇:https://blog.csdn.net/qq_34333481/article/details/84105246第二篇:https://blog.csdn.net/qq_34333481/article/details/84235921一个可以运行的例子'''all_dict = dict() # 每个单词在所有文章中出现的次数。其每个键的值是一直在+1的。temp_...原创 2019-09-23 16:56:15 · 703 阅读 · 1 评论 -
文本关键词提取二三事
基于此,我想说的是,虽然关键词提取的算法很多,也很花哨,但是思路比较简单,应当在写Paper之前,或者开发技术应用之前,做好技术定位。另外,几乎没有论文回答最基础的一个问题,什么是关键词?为什么某些词应当被提取出来给阅读者看而另外一些词应当忽略?哪些词应当展示给用户看?太多研究关注算法的精度和效率,而忽视了关键词的本质内涵。关键词不是一个客观存在的东西,而本身也是人为标注的,因此模型的评估和优化,...原创 2018-11-20 13:42:22 · 221 阅读 · 0 评论 -
文本关键词提取方法有哪些?
一、来自知乎的回答https://www.zhihu.com/question/21104071/answer/24556905原创 2018-11-20 13:30:44 · 3217 阅读 · 0 评论 -
云模型(Cloud Model)
一、基本概念 云模型是由中国工程院院士李德毅在1995年提出的概念,是处理定性概念与定量描述的不确定转换模型。已经成功应用到自然语言处理处理,数据挖掘,决策分析,智能控制,图像处理等领域。 看一下百度的定义: 嗯,乱七八糟,我也看不懂。不过没关系,了解大概的概念就好。整个模型叫云,每个小的数据,也就是每个发生在系统中的事件,叫做云滴。 看他的数字特征。 ...转载 2018-11-13 10:34:13 · 37364 阅读 · 6 评论 -
文本数据下的用户画像
一、概述1、用户标签的获取:喜好关键词表:一个key-value 键值对。用户喜好的关键词-喜好程度”这样的Key-Value对。而这个map最开始当然是空的,而从任意时刻开始,我们可以开始跟踪某用户的浏览行为,每当该用户新浏览了一条新闻,我们就把该新闻的“关键词-TFIDF值”“插入”到该用户的喜好关键词表中。当然这个“插入”要考虑关键词表里已经预先有了某预插入的关键词的情况,那么在这个...原创 2018-11-13 16:05:07 · 1251 阅读 · 2 评论 -
主流推荐算法
主流推荐算法大致可分为: 基于内容(相似度)的推荐 基于用户(User)/物品(Item)相似度的协同过滤 热点新闻推荐(你看到的那些头条新闻) 基于模型的推荐(通过输入一些用户特征进入模型,产生推荐结果) 混合推荐(以上十八般兵器一起耍!)信息源:用户画像、物品画像、群体数据、知识模型。1、内容算法推荐之爆款2、四种推荐算法摘录融...原创 2018-11-13 17:11:22 · 3283 阅读 · 0 评论 -
如何生成自定义的逆文件频率(IDF)文本语料库(一)
在基于TF-IDF进行特征提取时,因为文本背景是某一具体行业,不适合使用通用的IDF语料库,我觉得应该使用自定义的基于该行业背景的IDF语料库。请问如何生成自定义IDF语料库呢?我现在有的数据是几十万个该行业的文档,初步想法是:对每个文档分词去重,把所有文档分词结果汇集去重后形成一个分词集,然后对于分词集里的每一个词语w,按idf=log(该行业文档总数/(含有w的文档数量+1))**公...原创 2018-11-15 15:36:47 · 5360 阅读 · 0 评论 -
推荐系统之内容画像
中午和一前同事一起用餐,发现还是有很多碰撞点的。交流了很多正在做的事情,对方也提供了非常多的思想值得自己很好的思考。先是和他聊了下我们现在做内容标签的进展,其实就是在做内容画像。我们一般都是在谈用户画像,其实内容也是要画像的。我之前说,内容和用户是现在互联网企业核心的两个东西,用户的行为则将内容和用户连接了起来。很多人一上来,撸起袖子就开始做用户画像,后面会发现,如果没有对内容做好分...转载 2018-11-14 10:12:08 · 860 阅读 · 0 评论 -
用户画像
一 、定义什么是用户画像?1、用户画像是指根据用户的属性、偏好、生活习惯、行为等信息,抽象出来的标签化用户模型。通俗说就是给用户打标签,而标签是通过对用户信息分析而来的高度精炼的特征标识。通过打标签可以利用一些高度概括、容易理解的特征来描述用户,可以让人更容易理解用户,并且可以方便计算机处理。2、用户画像通常包含定性画像与定量画像;定性画像是描述用户的基本属性、行为刻画、兴趣模型等,定...原创 2018-11-12 13:49:39 · 2777 阅读 · 0 评论 -
今日头条文章推荐算法摘记
一、用户标签用户标签今日头条常用的用户标签包括用户感兴趣的类别和主题、关键词、来源、基于兴趣的用户聚类以及各种垂直兴趣特征(车型,体育球队,股票等)。还有性别、年龄、地点等信息。性别信息通过用户第三方社交账号登录得到。年龄信息通常由模型预测,通过机型、阅读时间分布等预估。常驻地点来自用户授权访问位置信息,在位置信息的基础上通过传统聚类的方法拿到常驻点。常驻点结合其他信息,可以推测用户的工作地点...原创 2018-11-09 15:44:02 · 472 阅读 · 0 评论 -
用户画像入门(转)
这篇文章在宏观上很好地描述了用户画像的主要内容。(文章内的图片来源于不同帖子,侵删)一、 什么是用户画像 用户画像是指根据用户的属性、偏好、生活习惯、行为等信息,抽象出来的标签化用户模型。通俗说就是给用户打标签,而标签是通过对用户信息分析而来的高度精炼的特征标识。通过打标签可以利用一些高度概括、容易理解的特征来描述用户,可以让人更容易理解用户,并且可以方便计算机处理。...转载 2018-11-12 14:02:25 · 2147 阅读 · 0 评论 -
什么是计算机科学中的“本体论”
最近看用户画像,里面提到了本体论。故把知乎一个回答放于此地。一、本体的概念本体的概念有两层意思,一层是哲学层面的意思,一层是引申到信息科学中的语义层面的意思。举个最通俗的例子来解释一下这两层意思,我们就拿苹果来举例。关于苹果的描述可以有很多,这里取三个苹果 apple (苹果的图片) 也就是说,中文的“苹果”,英文的“apple”和“苹果的图片”都可以让人知道是在表示...原创 2018-11-12 15:26:04 · 4976 阅读 · 1 评论 -
文本内容画像&用户画像理解之最终版
首先,用户画像和内容画像 等于 给用户和文本贴标签,即提取能代表该用户和该文章的关键特征。两个画像都构建完成之后,便是推荐算法出场。一、标签的定义标签是对高维事务的降维理解,抽象出实物更具有代表性、更显著的特点。二、标签产出方式:内容和用户两种在内容画像层面,在文本处理中,对于给定的非结构化的一篇文章,内容画像一共分为一下两步:2.1、对非结构的文本进行结构化处理,常用的...原创 2018-11-14 15:07:07 · 4751 阅读 · 0 评论 -
jeiba分词
https://github.com/fxsjy/jieba原创 2018-11-16 16:50:14 · 402 阅读 · 0 评论 -
如何生成自定义的逆向文件频率(IDF)文本语料库(二)
一、什么是IDF文本语料库在jieba的TF-IDF模型里面,当调用获取关键词的函数 jieba.analyse.extract_tags() 的时候,该函数会调用默认的IDF语料库。IDF语料库就是jieba官方在大量文本的基础上,通过计算得到的一个idf字典,其key为分词之后的每个词,其value为 每个词的IDF数值。二、计算自定义的IDF文本语料库程序流程如下...原创 2018-11-19 11:32:31 · 4064 阅读 · 4 评论 -
TF-IDF存在的问题及其改进
一、问题 在本质上IDF是一种试图抑制噪音的加权,并且单纯地认为文本频率小的单词就越重要,文本频率大的单词就越无用。这对于大部分文本信息,并不是完全正确的。IDF的简单结构并不能使提取的关键词,十分有效地反映单词的重要程度和特征词的分布情况,使其无法很好地完成对权值调整的功能。尤其是在同类语料库中,这一方法有很大弊端,往往一些同类文本的关键词被掩盖。例如:语料库D中教育类文章偏多...原创 2018-11-19 16:58:57 · 17360 阅读 · 14 评论 -
相似度计算之Jaccard系数
Jaccard相似系数定义给定两个集合A,B,Jaccard 系数定义为A与B交集的大小与A与B并集的大小的比值,定义如下:当集合A,B都为空时,J(A,B)定义为1。与Jaccard 系数相关的指标叫做Jaccard 距离,用于描述集合之间的不相似度。Jaccard 距离越大,样本相似度越低。公式定义如下:其中对参差(symmetric difference)...原创 2018-11-13 10:23:22 · 64485 阅读 · 13 评论