文本特征提取

文本挖掘模型结构示意图 1. 分词 分词实例:        提高人民生活水平:提高、高人、人民、民生、生活、活水、水平 分词基本方法:         最大匹配法、最大概率法分词、最短路径分词方法 1.1 最大匹配法         中文分词在中文信息处理中是最最基础的...

2016-06-24 13:45:32

阅读数 501

评论数 0

图形数据库 Neo4j(2) ----Java

Neo4j 是一个高性能的 NoSQL 图形数据库。Neo4j 使用图(graph)相关的概念来描述数据模型,把数据保存为图中的节点以及节点之间的关系。很多应用中数据之间的关系,可以很直接地使用图中节点和关系的概念来建模。对于这样的应用,使用 Neo4j 来存储数据会非常的自然,要优于使用关系数据...

2016-06-23 22:26:19

阅读数 4216

评论数 0

图形数据库Neo4j(1)----简介及使用

Neo4j是一个高性能的,NOSQL图形数据库,它将结构化数据存储在网络上而不是表中。Neo4j也可以被看作是一个高性能的图引擎,该引擎具有成熟数据库的所有特性。程序员工作在一个面向对象的、灵活的网络结构下而不是严格、静态的表中——但是他们可以享受到具备完全的事务特性、企业级的数据库的所有好处。 ...

2016-06-23 22:23:33

阅读数 750

评论数 0

Neo4j安装及使用

Neo4j简介 Neo4j是一个高性能的,NOSQL图形数据库,它将结构化数据存储在网络上而不是表中。Neo4j也可以被看作是一个高性能的图引擎,该引擎具有成熟数据库的所有特性。程序员工作在一个面向对象的、灵活的网络结构下而不是严格、静态的表中——但是他们可以享受到具备完全的事务特性、企业级...

2016-06-23 10:49:47

阅读数 6155

评论数 0

sklearn,SVM 和文本分类

之前做过一些文本挖掘的项目,比如网页分类、微博情感分析、用户评论挖掘,也曾经将libsvm进行包装,写了一个文本分类的开软软件Tmsvm。所以这里将之前做过一些关于文本分类的东西整理总结一下。 1 基础知识 1. 1 样本整理 文本分类属于有监督的学习,所以需要整理样本。根据业务需求...

2016-06-22 19:01:20

阅读数 16065

评论数 2

Java运行Python脚本的几种方式

由于在项目需要执行Python,找寻相关资料,总结出以下几种方式: 直接执行Python脚本代码     引用 org.python包 1 PythonInterpreter interpreter = new PythonInterpreter(); 2 interpreter...

2016-06-21 23:06:41

阅读数 706

评论数 0

在java中调用python方法

1、http://sourceforge.net/projects/jython/下载jython包,把其中的jython.jar添加到工程目录   示例: 1、摘自:http://blog.csdn.net/anbo724/article/details/6608632 ...

2016-06-21 23:01:42

阅读数 222

评论数 0

python操作mysql数据库

Python 标准数据库接口为 Python DB-API,Python DB-API为开发人员提供了数据库应用编程接口。 Python 数据库接口支持非常多的数据库,你可以选择适合你项目的数据库: GadFly mSQL MySQL PostgreSQL Microsof...

2016-06-21 23:00:17

阅读数 295

评论数 0

基于Bayes和KNN的newsgroup 18828文本分类器的Python实现

基于Bayes和KNN的newsgroup 18828文本分类器的Python实现 向@yangliuy大牛学习NLP,这篇博客是数据挖掘-基于贝叶斯算法及KNN算法的newsgroup18828文本分类器的JAVA实现(上)的Python实现。入门为主,没有太多自己的东西。 ...

2016-06-21 17:45:30

阅读数 934

评论数 0

python sklearn做文本分类

文本挖掘的paper没找到统一的benchmark,只好自己跑程序,走过路过的前辈如果知道20newsgroups或者其它好用的公共数据集的分类(最好要所有类分类结果,全部或取部分特征无所谓)麻烦留言告知下现在的benchmark,万谢! 嗯,说正文。20newsgroups官网上给出了3个数据...

2016-06-21 17:24:15

阅读数 3096

评论数 0

Python 文本挖掘:使用gensim进行文本相似度计算

转自:http://rzcoding.blog.163.com/blog/static/2222810172013101895642665/ 在文本处理中,比如商品评论挖掘,有时需要了解每个评论分别和商品的描述之间的相似度,以此衡量评论的客观性。 评论和商品描述的相似度越高,说明评论的...

2016-06-20 23:13:11

阅读数 2844

评论数 0

Python 网页爬虫

转自:http://www.lovelucy.info/python-crawl-pages.html CUHK上学期有门课叫做Semantic Web,课程project是要搜集整个系里面的教授信息,输入到一个系统里,能够完成诸如“如果选了A教授的课,因时间冲突,B教授的哪些课不能选”、“...

2016-06-20 22:56:11

阅读数 235

评论数 0

Java标准库类

Java/ java/applet/ java/applet/Applet java/applet/AppletContext java/applet/AppletStub java/applet/AudioClip java/awt/ java/awt/AWTError java...

2016-06-18 23:50:13

阅读数 2787

评论数 0

Java 网络爬虫-htmlparser

---------------------------------------------Spider.java----------------------------------------------------------------- import java.io.Buffere...

2016-06-18 23:20:15

阅读数 324

评论数 0

Java 引用jar包

一般情况下: 如果java 文件和jar 包在同一目录 poi-3.0-alpha3-20061212.jar testTwo.java 编译: javac -cp poi-3.0-alpha3-20061212.jar:. testTwo.java 执行: j...

2016-06-18 22:53:58

阅读数 389

评论数 0

Java爬虫

转载请注明出处:http://blog.csdn.net/lmj623565791/article/details/23272657 今天公司有个需求,需要做一些指定网站查询后的数据的抓取,于是花了点时间写了个demo供演示使用。 思想很简单:就是通过Java访问的链接,然后拿到htm...

2016-06-17 23:38:21

阅读数 250

评论数 0

python之sklearn

Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的句子,我以自己的理解意译。 翻译自:Scikit Learn:Machine Learning in Python 作者: Fabian Pedregosa, Gael Var...

2016-06-13 09:27:17

阅读数 8650

评论数 0

python之scipy

SciPy-数值计算库 SciPy函数库在NumPy库的基础上增加了众多的数学、科学以及工程计算中常用的库函数。例如线性代数、常微分方程数值求解、信号处理、图像处理、稀疏矩阵等等。由于其涉及的领域众多、本书没有能力对其一一的进行介绍。作为入门介绍,让我们看看如何用SciPy进行插值处理、信号...

2016-06-13 09:25:12

阅读数 2761

评论数 0

python之numpy

NumPy-快速处理数据 标准安装的Python中用列表(list)保存一组值,可以用来当作数组使用,不过由于列表的元素可以是任何对象,因此列表中所保存的是对象的指针。这样为了保存一个简单的[1,2,3],需要有3个指针和三个整数对象。对于数值运算来说这种结构显然比较浪费内存和CPU计算时间...

2016-06-13 09:22:39

阅读数 323

评论数 0

支持向量机通俗导论(理解SVM的三层境界)

支持向量机通俗导论(理解SVM的三层境界) 作者:July、pluskid ;致谢:白石、JerryLead 出处:结构之法算法之道blog。 前言     动笔写这个支持向量机(support vector machine)是费了不少劲和困难的,原...

2016-06-07 23:43:04

阅读数 674

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭