- 博客(24)
- 资源 (104)
- 收藏
- 关注
原创 python模块导入及属性:import
http://blog.csdn.net/pipisorry/article/details/43313197模块和包1. python程序由包(package)、模块(module)和函数组成。2. 包是由一系列模块组成的集合。当不同作的模块进行按文件夹分类后再组成一个整体的库,可以称为包。为了让Python将目录当做内容包,目录中必须包含__init__.py文件,用于标识当前文件...
2015-01-30 20:39:45 38269 2
原创 Scipy教程 - 线性代数库scipy.linalg
http://blog.csdn.net/pipisorry/article/details/43277755Linear Algebra(scipy.linalg) scipy线性代数库简介When SciPy is built using the optimized ATLAS LAPACK and BLAS libraries, it has very fast linear
2015-01-29 20:49:58 34505
原创 knowledge_based topic model - AMC
http://blog.csdn.net/pipisorry/article/details/43271429ABSTRACT Topic modeling has been widely used to mine topics from documents. However,a key weakness of topic modeling is that it
2015-01-29 14:59:28 3033 1
原创 Linux:shell变量功能和Bash shell的操作环境
http://blog.csdn.net/pipisorry/article/details/43235263shell的变量功能sh和bash命令两者都是shell,都是解析工具。bash(Bourne Again SHell) 是Linux标准的默认shell ,它基于Bourne shell,吸收了C shell和Korn shell的一些特性。sh(Bourne she...
2015-01-28 19:07:16 4598
原创 Machine Learning - II. Linear Regression with One Variable单变量线性回归 (Week 1)
http://blog.csdn.net/pipisorry/article/details/43115525机器学习Machine Learning - Andrew NG courses学习笔记Linear regression with one variable单变量线性回归模型表示Model representation例子:这是Regression Problem(one of supe
2015-01-25 17:50:22 3500
原创 Machine Learning - I. Introduction机器学习综述 (Week 1)
机器学习的来源和用例:Machine Learning- Grew out of work in AI- New capability for computersExamples:- Database miningLarge datasets from growth of automation/web.E.g., Web click data, medical re
2015-01-24 20:35:41 4868
原创 Stanford Parser的使用——进行词法语法分析
http://blog.csdn.net/pipisorry/article/details/42976457stanford-parser的使用1、到斯坦福官方网站http://nlp.stanford.edu/software/lex-parser.shtml下载软件包,解压。2、在eclipse中新建一个java project,把解压得到根目录下的sta
2015-01-21 20:44:01 23658
原创 java环境配置:安装java和集成开发环境idea
http://Java是由Sun公司开发的一种应用于分布式网络环境的程序设计语言,Java语言拥有跨平台的特性,它编译的程序能够运行在多种操作系统平台上,可以实现“一次编写,到处运行”的强大功能。
2015-01-20 15:45:32 6619 1
原创 todotodo
http://blog.csdn.net/pipisorry/article/details/42913673from:ref:
2015-01-20 10:12:33 2888
原创 Java爬虫Crawler
缺少某个库,找到之后,需要将该库,jar包,加入到当前项目,使得代码中的import xxx得以正常导入。通过 Add External Achieves…的方式导入的。具体操作起来,有很多种方式:(1)最快捷的是:右键项目->Build Path -> Add External Achieves…举例:然后选择,单个或多个的,对应的库(jar包):再点击确
2015-01-20 09:36:03 1950
原创 打印机共享
http://blog.csdn.net/pipisorry/article/details/42778163本文主要说明在win7, win8, win10, linux(ubuntu)怎么在局域网及广域网上设置打印机远程共享。连接打印机电脑的主机上的设置(for win7&win8)(这个是连接打印机的电脑的设置。win10未测试,应该一样; linux也未测试)取消默认禁用的Guest用户W
2015-01-16 16:14:57 4387 1
原创 概率论:p(x|theta)和p(x;theta)的区别
http://blog.csdn.net/pipisorry/article/details/42715245求解最大似然估计时发现有两种表示方法 from:Gregor Heinrich - Parameter estimation for text analysisfrom:http://blog.csdn.net/pipisorry/article
2015-01-14 20:19:25 21739
原创 主题模型TopicModel:LDA中的数学模型
了解LDA需要明白如下数学原理:一个函数:gamma函数四个分布:二项分布、多项分布、beta分布、Dirichlet分布一个概念和一个理念:共轭先验和贝叶斯框架两个模型:pLSA、LDA(文档-主题,主题-词语)一个采样:Gibbs采样
2015-01-13 10:16:52 9066 3
原创 主题模型TopicModel:隐含狄利克雷分布LDA
http://blog.csdn.net/pipisorry/article/details/42649657主题模型LDA简介隐含狄利克雷分布简称LDA(Latent Dirichlet allocation),是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可。此外LDA的
2015-01-12 21:07:07 52343 13
原创 主题模型TopicModel:PLSA模型及PLSA的EM推导
基于概率统计的PLSA模型,并且用EM算法学习模型参数。PLSA的概率图模型如下其中D代表文档,Z代表隐含类别或者主题,W为观察到的单词,表示单词出现在文档的概率,表示文档中出现主题下的单词的概率,给定主题出现单词的概率。并且每个主题在所有词项上服从Multinomial 分布,每个文档在所有主题上服从Multinomial 分布。整个文档的生成过程是这样的:(1) 以的概率选中文
2015-01-09 20:59:44 11052
原创 主题模型TopicModel:Unigram、LSA、PLSA模型
http://blog.csdn.net/pipisorry/article/details/42560693主题模型历史Papadimitriou、Raghavan、Tamaki和Vempala在1998年发表的一篇论文中提出了潜在语义索引。1999年,Thomas Hofmann又在此基础上,提出了概率性潜在语义索引(Probabilistic Latent Semantic Inde...
2015-01-09 20:49:55 26773 11
原创 主题模型TopicModel:LSA(隐性语义分析)模型和其实现的早期方法SVD
LSA and SVDLSA(隐性语义分析)的目的是要从文本中发现隐含的语义维度-即“Topic”或者“Concept”。我们知道,在文档的空间向量模型(VSM)中,文档被表示成由特征词出现概率组成的多维向量,这种方法的好处是可以将query和文档转化成同一空间下的向量计算相似度,可以对不同词项赋予不同的权重,在文本检索、分类、聚类问题中都得到了广泛应用,在基于贝叶斯算法及KNN算法的ne
2015-01-09 20:40:55 17562 3
原创 EM算法原理详解
http://blog.csdn.net/pipisorry/article/details/42550815EM算法有很多的应用,最广泛的就是GMM混合高斯模型、聚类、HMM、基于概率的PLSA模型等等。本文详细讲述EM算法的由来、EM算法的实现思路、EM算法解决PLSA和LDA的方法。概述、EM是一种解决存在隐含变量优化问题的有效方法。EM的意思是“Expectation Maximizati
2015-01-09 09:44:36 50058 8
原创 字符编码ASCII,Unicode和UTF-8
http://blog.csdn.net/pipisorry/article/details/42387045字符编码介绍文本,他们通常指显示在屏幕上的字符或者其他的记号;但是计算机不能直接处理这些字符和标记;它们只认识位(bit)和字节(byte)。实际上,从屏幕上的每一块文本都是以某种字符编码(character encoding)的方式保存的。粗略地说就是,字符编码提供一种映射,使屏幕上显示
2015-01-08 15:50:03 5541
原创 主题模型TopicModel:LDA主题模型的评估
LDA主题模型好坏的评估,判断改进的参数或者算法的建模能力。Blei先生在论文《Latent Dirichlet Allocation》实验中用的是Perplexity值作为评判标准。一、Perplexity定义http://en.wikipedia.org/wiki/Perplexityperplexity是一种信息理论的测量方法,b的perplexity值定义为基于b的
2015-01-06 17:05:04 31180
原创 正则表达式
正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个独立的处理引擎,效率上可能不如str自带的方法,但功能十分强大。在提供了正则表达式的语言里,正则表达式的语法都是一样的,区别只在于不同的编程语言实现支持的语法数量不同;但不用担心,不被支持的语法通常是不常用的部分。
2015-01-04 10:00:58 3355 1
Parameter estimation for text analysis
2016-05-23
pdfstudio安装文件及破解
2016-03-24
matplotlib安装包
2016-01-02
pandas安装文件
2016-01-01
matplotlib安装文件
2016-01-01
GB2UTF8.exe
2015-08-07
A First Course in Probability 第8版 Sheldon Ross
2014-10-31
wps symbol fonts
2017-02-27
Anand.Rajaraman-Mining of Massive Datasets
2016-06-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人