机器学习——文本挖掘
文章平均质量分 69
mmc2015
北大信科学院,关注深度强化学习。http://net.pku.edu.cn/~maohangyu/
展开
-
scikit-learn:通过TruncatedSVD实现LSA(隐含语义分析)
http://scikit-learn.org/stable/modules/decomposition.html#lsa第2.5.2部分:2.5.2. Truncated singular value decomposition and latent semantic analysis(截断SVD和LSA/LSA)先说明:latent semantic indexing, LSI和l原创 2015-07-13 21:10:39 · 16339 阅读 · 3 评论 -
scikit-learn:CountVectorizer提取tf都做了什么
http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html#sklearn.feature_extraction.text.CountVectorizerclass sklearn.feature_extraction.text.C原创 2015-07-13 18:58:52 · 26213 阅读 · 8 评论 -
《textanalytics》课程简单总结(1):两种word relations——Paradigmatic vs. Syntagmatic
coursera上的公开课《https://www.coursera.org/course/textanalytics》系列,讲的非常不错哦。1、两种关系:Paradigmatic vs. Syntagmatic(聚合和组合)• Paradigmatic: A & B have paradigmatic relation if they canbe substituted f原创 2015-07-18 10:37:57 · 8247 阅读 · 0 评论 -
《textanalytics》课程简单总结(4):课程总结
coursera上的公开课《https://www.coursera.org/course/textanalytics》系列,讲的非常不错哦。最后讲了文本分类,和plsa的几种变形,包括:opinion mining和sentiment analysis:Ordinal Logistic Regressionopinion mining和sentiment analysis:L原创 2015-07-19 09:22:01 · 1502 阅读 · 0 评论 -
《textanalytics》课程简单总结(1):两种word relations——Paradigmatic vs. Syntagmatic(续)
coursera上的公开课《https://www.coursera.org/course/textanalytics》系列,讲的非常不错哦。3、挖掘Syntagmatic(组合)关系:有时间再总结。。原创 2015-07-18 11:47:13 · 2554 阅读 · 0 评论 -
《textanalytics》课程简单总结(2):topic mining
coursera上的公开课《https://www.coursera.org/course/textanalytics》系列,讲的非常不错哦。 1、“term as topic”有很多问题: 2、Improved Idea: Topic = Word Distribution: 3、定义问题(Probabilistic Topic Mining and Anal原创 2015-07-19 08:37:46 · 2094 阅读 · 0 评论 -
scikit-learn:训练分类器、预测新数据、评价分类器
http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html构建分类器,以NB为例:from sklearn.naive_bayes import MultinomialNBclf = MultinomialNB().fit(X_tfidf, rawData.target)要原创 2015-07-13 08:14:59 · 9348 阅读 · 0 评论 -
scikit-learn:0.4 使用“Pipeline”统一vectorizer => transformer => classifier、网格搜索调参
http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html1、使用“Pipeline”统一vectorizer => transformer => classifierfrom sklearn.pipeline import Pipelinetext_clf = Pipe原创 2015-07-13 08:37:36 · 3082 阅读 · 0 评论 -
scikit-learn:4.2.3. Text feature extraction
http://scikit-learn.org/stable/modules/feature_extraction.html4.2节内容太多,因此将文本特征提取单独作为一块。1、the bag of words representation将raw data表示成长度固定的数字特征向量,scikit-learn提供了三个方式:tokenizing:给每一个token(字、词原创 2015-07-22 07:57:15 · 4217 阅读 · 0 评论 -
scikit-learn:加载自己的原始数据
这里不讨论加载常用的公用数据集,而是讨论加载自己的原始数据(即,实际中遇到的数据)http://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_files.html#sklearn.datasets.load_filessklearn.datasets.load_files(翻译 2015-07-12 20:28:21 · 18746 阅读 · 6 评论 -
写给自己——信息增益
所谓信息量,就是熵。对文本分类而言,分类C(看做是一个变量)可能的取值有n种(最常见的是二元分类),每一种取到的概率为Pi,那么分类C的熵就定义为H(C)=-sigma(i:1-n) { P(Ci)*log[P(Ci)] }。所谓信息增益,系统有某个特征和没某个特征时信息量发生的变化。信息量变化越大,该特征越重要。对文本分类而言,特征T(指每一个词汇)给分类原创 2015-09-13 15:48:49 · 855 阅读 · 0 评论 -
写给自己——卡方检测
卡方检验最基本的思想就是通过观察实际值与理论值的偏差来确定理论的正确与否。偏差越大,我们认为原假设越有问题,从而接收原假设的反面。那如何计算偏差程度?假设变量X,所有的观测值为X1,X2,...,Xn,理论值就是E(X)了(可以是其他合理的假设),那么偏差就是 sigma:i(1-n){ (Xi-E(x))^2 / E(x) }。所谓“理论”,就是指我们的原假设。对(以DF原创 2015-09-13 16:56:15 · 1579 阅读 · 0 评论 -
多文档自动文摘:Multi-Document Summarization,MDS
原创 2015-08-17 20:43:40 · 2542 阅读 · 0 评论 -
文本分类入门:特征选择算法之开方检验、信息增益;特征选择与特征权重计算的区别
文本分类入门(十)特征选择算法之开方检验:http://www.blogjava.net/zhenandaci/archive/2008/08/31/225966.html文本分类入门(十一)特征选择方法之信息增益:http://www.blogjava.net/zhenandaci/archive/2016/08/11/261701.html文本分类入门(番外篇)特征选择与特征权重计算的转载 2016-09-26 09:55:46 · 5921 阅读 · 0 评论 -
从语言学到深度学习NLP,【一文概述自然语言处理】
两篇文章确实不错。https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650729976&idx=1&sn=1f2e64ae2baefd82fd6dcac86d2cc77e&chksm=871b2986b06ca0907fdc335b8f79f0c15cc4393ec45f89ad93d3c9a899c05224dc16e244转载 2017-08-21 22:52:59 · 3788 阅读 · 0 评论 -
水了一篇PAKDD2018的文章:Topic-specific Retweet Count Ranking for Weibo
看题目就知道做什么工作:Topic-specific Retweet Count Ranking for Weibo摘要:In this paper, we study \emph{topic-specific} retweet count ranking problem in Weibo. Two challenges make this task nontrivial. Firstly, tr...原创 2018-02-24 08:26:36 · 4256 阅读 · 7 评论 -
scikit-learn:从文本文件中提取特征(tf、idf)
http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html昨晚写了两篇文章,明明保存了,今早却没了,只好简单的重复一下。。。1、tf:首先要解决high-dimensional sparse datasets的问题,scipy.sparse matrices 就是这样的原创 2015-07-13 07:48:40 · 4193 阅读 · 0 评论 -
《textanalytics》课程简单总结(3):text clustering
coursera上的公开课《https://www.coursera.org/course/textanalytics》系列,讲的非常不错哦。1、text clustering的总体思想:类似于topic mining,但要求每个text只有一个主题构成!To generate a document, firstchoose a theta_i according to原创 2015-07-19 08:57:25 · 1645 阅读 · 0 评论 -
微博用户影响力分析
1)类PageRank算法 PageRank算法核心在于一个假设,质量高的网页所指向的网页的质量必定也高。对于微博影响力同样有:影响力高的用户关注的用户的影响力必定也高。 首先构建微博关系网,那么类PageRank算法如下: a)赋予所有用户相同的影响力权重。 c)将每个用户的影响力权重按照其关注的人数等量分配。 d)对每个用户来说,其影响力等原创 2015-01-14 15:07:43 · 5452 阅读 · 2 评论 -
微博用户相似度分析
这里的标签,既指用户打上的真的标签,也指用户相似度。1)为了得到每个用户的兴趣,可以为用户打上标签,每个标签代表用户的一个兴趣,用户可以拥有一个或多个标签。为了得到最终的用户标签, 则可以根据他们的标签相似性、微博相似性进行协同过滤计算标签,假设:每个用户的好友(或粉丝)中与该用户具有相同兴趣的人占多数。具体流程如下: a)对每一个用户,根据其初始标签和相关微博生成代表这原创 2015-01-14 14:00:05 · 3053 阅读 · 0 评论 -
LDA文本建模(2)——MCMC和Gibbs Sampling
统计学中有一类重要的问题:给定一个概率分布P(x),如何在计算机中生成该分布对应的样本。MCMC(Markov Chain Monte Carlo)和Gibbs Sampling算法在现代贝叶斯分析中被广泛使用。1)MCMC(Markov Chain Monte Carlo)如,转移概率矩阵记为:初始概率分布向量为:π0=[π0(1), π0(2), π0(3)原创 2015-04-12 15:21:36 · 1738 阅读 · 0 评论 -
LDA文本建模(1)——数学基础
二个函数:Gamma函数、Beta函数五个分布:二项分布(Binomial)、多项分布(Multnomial)、Gamma分布、Beta分布、Dirichlet分布一个概念:共轭先验1)Gamma函数gamma函数性质:gamma函数和log(gamma)函数都是凸函数。2)Beta函数性质:3)Gamma分布原创 2015-04-12 14:17:24 · 1652 阅读 · 0 评论 -
LDA文本建模(3)——pLSA模型和LDA模型
统计文本建模的问题就是:追问这些观察到的语料库中的词序列是如何生成的。1)LDA文本建模(1-2)里应该明白的结论beta分布是二项式分布的共轭先验概率分布: “对于非负实数和,我们有如下关系------------------(1) 其中对应的是二项分布的计数。针对于这种观测到的数据符合二项分布,参数的先验分布原创 2015-04-12 16:20:54 · 2755 阅读 · 2 评论 -
LDA文本建模(4)——算法细节、伪代码、实现
上面的产生过程简单描述为:原创 2015-04-13 13:44:51 · 8899 阅读 · 0 评论 -
scikit-learn:0.3. 从文本文件中提取特征(tf、tf-idf)、训练一个分类器
上一篇讲了如何加载数据。本篇参考:http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html主要讲解如下部分:Extracting features from text filesTraining a classifier跑模型之前,需要将文本文件的翻译 2015-07-12 20:52:56 · 4678 阅读 · 2 评论 -
scikit-learn:构建文本分类的“pipeline”简化分类过程、网格搜索调参
前两篇分别将“加载数据”和“提取tf、tf-idf,进而构建分类器”,其实这个过程,vectorizer => transformer => classifier,早已被“scikit-learn provides a Pipeline class”一下就可以搞定:本篇翻译:http://scikit-learn.org/stable/tutorial/text_analytics/w翻译 2015-07-12 21:21:15 · 3228 阅读 · 6 评论 -
文本建模常用的预处理方法
最近看文本建模,给一大段文本,如何建模???以MeTa代码为例:[[analyzers]] method = "ngram-word" ngram = 1 [[analyzers.filter]] type = "whitespace-tokenizer" [[analyzers.filter]] type = "lowercase" [[analyzers.fil原创 2015-07-02 19:31:55 · 1788 阅读 · 0 评论 -
文本建模常用的预处理方法——删除停顿词和stem操作的处理顺序
关于先删除停顿词还是先进行stem操作,推荐先删除停顿词,在进行stem操作,最后在处理一次停顿词,相信大家应该明白为什么这么做。。。文本建模系列会不断更新。。。。原创 2015-07-06 10:43:15 · 1978 阅读 · 0 评论 -
scikit-learn:0.2. 加载自己的原始数据
这里不讨论加载常用的公用数据集,而是讨论加载自己的原始数据(即,实际中遇到的数据)http://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_files.html#sklearn.datasets.load_filessklearn.datasets.load_files(原创 2015-07-12 19:57:53 · 5404 阅读 · 0 评论 -
文本建模常用的预处理方法——特征选择方法(CHI和IG)
本篇关于TF-IDF/CHI/IG,文本建模系列会不断更新。。。。原创 2015-07-06 10:45:59 · 7155 阅读 · 2 评论 -
PAKDD2018小结
会议整体概况610+投稿量long paper:57,9.63%short paper:107,18.07%【placeholder for pictures】投稿量最多的是applications录稿量最多的是mining graph and network data【placeholder for pictures】录稿量最多的三个国家:美中澳参会人数最多的三个国家:澳中美...原创 2018-06-14 08:37:17 · 4246 阅读 · 1 评论