- 博客(20)
- 资源 (5)
- 收藏
- 关注
转载 文本特征提取
文本挖掘模型结构示意图1. 分词分词实例: 提高人民生活水平:提高、高人、人民、民生、生活、活水、水平分词基本方法: 最大匹配法、最大概率法分词、最短路径分词方法1.1 最大匹配法 中文分词在中文信息处理中是最最基础的,无论机器翻译亦或信息检索还是其他相关应用,如果涉及中文,都离不开中文分词,因此中文分词具有极高的地位
2016-06-24 13:45:32 672
转载 图形数据库 Neo4j(2) ----Java
Neo4j 是一个高性能的 NoSQL 图形数据库。Neo4j 使用图(graph)相关的概念来描述数据模型,把数据保存为图中的节点以及节点之间的关系。很多应用中数据之间的关系,可以很直接地使用图中节点和关系的概念来建模。对于这样的应用,使用 Neo4j 来存储数据会非常的自然,要优于使用关系数据库。本文对 Neo4j 进行了深入的介绍,并结合具体的实例来进行详细的说明,可以让您对 Neo4j 有
2016-06-23 22:26:19 5259
转载 图形数据库Neo4j(1)----简介及使用
Neo4j是一个高性能的,NOSQL图形数据库,它将结构化数据存储在网络上而不是表中。Neo4j也可以被看作是一个高性能的图引擎,该引擎具有成熟数据库的所有特性。程序员工作在一个面向对象的、灵活的网络结构下而不是严格、静态的表中——但是他们可以享受到具备完全的事务特性、企业级的数据库的所有好处。Neo4j因其嵌入式、高性能、轻量级等优势,越来越受到关注。图形数据结构在一个图
2016-06-23 22:23:33 1258
转载 Neo4j安装及使用
Neo4j简介Neo4j是一个高性能的,NOSQL图形数据库,它将结构化数据存储在网络上而不是表中。Neo4j也可以被看作是一个高性能的图引擎,该引擎具有成熟数据库的所有特性。程序员工作在一个面向对象的、灵活的网络结构下而不是严格、静态的表中——但是他们可以享受到具备完全的事务特性、企业级的数据库的所有好处。Neo4j因其嵌入式、高性能、轻量级等优势,越来越受到关注。图形数
2016-06-23 10:49:47 8295
转载 sklearn,SVM 和文本分类
之前做过一些文本挖掘的项目,比如网页分类、微博情感分析、用户评论挖掘,也曾经将libsvm进行包装,写了一个文本分类的开软软件Tmsvm。所以这里将之前做过一些关于文本分类的东西整理总结一下。1 基础知识1. 1 样本整理文本分类属于有监督的学习,所以需要整理样本。根据业务需求,确定样本标签与数目,其中样本标签多为整数。在svm中其中如果为二分类,样本标签一般会设定为-1和1,
2016-06-22 19:01:20 23046 1
转载 Java运行Python脚本的几种方式
由于在项目需要执行Python,找寻相关资料,总结出以下几种方式:直接执行Python脚本代码 引用 org.python包1 PythonInterpreter interpreter = new PythonInterpreter(); 2 interpreter.exec("days=('mod','Tue','Wed','Thu','Fri','Sat','S
2016-06-21 23:06:41 961
转载 在java中调用python方法
1、http://sourceforge.net/projects/jython/下载jython包,把其中的jython.jar添加到工程目录 示例:1、摘自:http://blog.csdn.net/anbo724/article/details/66086321.在java类中直接执行python语句view plainim
2016-06-21 23:01:42 330
转载 python操作mysql数据库
Python 标准数据库接口为 Python DB-API,Python DB-API为开发人员提供了数据库应用编程接口。Python 数据库接口支持非常多的数据库,你可以选择适合你项目的数据库:GadFlymSQLMySQLPostgreSQLMicrosoft SQL Server 2000InformixInterbaseOracleSyb
2016-06-21 23:00:17 439
转载 基于Bayes和KNN的newsgroup 18828文本分类器的Python实现
基于Bayes和KNN的newsgroup 18828文本分类器的Python实现向@yangliuy大牛学习NLP,这篇博客是数据挖掘-基于贝叶斯算法及KNN算法的newsgroup18828文本分类器的JAVA实现(上)的Python实现。入门为主,没有太多自己的东西。1. 数据集Newsgroup新闻文档集,含有20000篇左右的Usenet文档,平均分配
2016-06-21 17:45:30 1361
转载 python sklearn做文本分类
文本挖掘的paper没找到统一的benchmark,只好自己跑程序,走过路过的前辈如果知道20newsgroups或者其它好用的公共数据集的分类(最好要所有类分类结果,全部或取部分特征无所谓)麻烦留言告知下现在的benchmark,万谢!嗯,说正文。20newsgroups官网上给出了3个数据集,这里我们用最原始的20news-19997.tar.gz。分为以下几个过程:
2016-06-21 17:24:15 4552
转载 Python 文本挖掘:使用gensim进行文本相似度计算
转自:http://rzcoding.blog.163.com/blog/static/2222810172013101895642665/在文本处理中,比如商品评论挖掘,有时需要了解每个评论分别和商品的描述之间的相似度,以此衡量评论的客观性。评论和商品描述的相似度越高,说明评论的用语比较官方,不带太多感情色彩,比较注重描述商品的属性和特性,角度更客观。那么Python 里
2016-06-20 23:13:11 3086
转载 Python 网页爬虫
转自:http://www.lovelucy.info/python-crawl-pages.htmlCUHK上学期有门课叫做Semantic Web,课程project是要搜集整个系里面的教授信息,输入到一个系统里,能够完成诸如“如果选了A教授的课,因时间冲突,B教授的哪些课不能选”、“和A教授实验室相邻的实验室都是哪些教授的”这一类的查询。这就是所谓的“语义网”了啊。。。然而最坑爹的是
2016-06-20 22:56:11 345
转载 Java标准库类
Java/java/applet/java/applet/Appletjava/applet/AppletContextjava/applet/AppletStubjava/applet/AudioClipjava/awt/java/awt/AWTErrorjava/awt/AWTEventjava/awt/AWTEventMulticasterjava/a
2016-06-18 23:50:13 3833
转载 Java 网络爬虫-htmlparser
---------------------------------------------Spider.java-----------------------------------------------------------------import java.io.BufferedReader;import java.io.InputStreamReader;import
2016-06-18 23:20:15 459
转载 Java 引用jar包
一般情况下:如果java 文件和jar 包在同一目录poi-3.0-alpha3-20061212.jar testTwo.java编译:javac -cp poi-3.0-alpha3-20061212.jar:. testTwo.java执行:java -cp poi-3.0-alpha3-20061212.jar:. testTwo如果
2016-06-18 22:53:58 633
转载 Java爬虫
转载请注明出处:http://blog.csdn.net/lmj623565791/article/details/23272657今天公司有个需求,需要做一些指定网站查询后的数据的抓取,于是花了点时间写了个demo供演示使用。思想很简单:就是通过Java访问的链接,然后拿到html字符串,然后就是解析链接等需要的数据。技术上使用Jsoup方便页面的解析,当然Jsoup很方
2016-06-17 23:38:21 344
转载 python之sklearn
Scikit Learn: 在python中机器学习Warning警告:有些没能理解的句子,我以自己的理解意译。翻译自:Scikit Learn:Machine Learning in Python作者: Fabian Pedregosa, Gael Varoquaux先决条件Numpy, ScipyIPythonmatplotlibscik
2016-06-13 09:27:17 9297
转载 python之scipy
SciPy-数值计算库SciPy函数库在NumPy库的基础上增加了众多的数学、科学以及工程计算中常用的库函数。例如线性代数、常微分方程数值求解、信号处理、图像处理、稀疏矩阵等等。由于其涉及的领域众多、本书没有能力对其一一的进行介绍。作为入门介绍,让我们看看如何用SciPy进行插值处理、信号滤波以及用C语言加速计算。3.1 最小二乘拟合假设有一组实验数据(x[i], y[i]
2016-06-13 09:25:12 4888
转载 python之numpy
NumPy-快速处理数据标准安装的Python中用列表(list)保存一组值,可以用来当作数组使用,不过由于列表的元素可以是任何对象,因此列表中所保存的是对象的指针。这样为了保存一个简单的[1,2,3],需要有3个指针和三个整数对象。对于数值运算来说这种结构显然比较浪费内存和CPU计算时间。此外Python还提供了一个array模块,array对象和列表不同,它直接保存数值,和C语
2016-06-13 09:22:39 453
转载 支持向量机通俗导论(理解SVM的三层境界)
支持向量机通俗导论(理解SVM的三层境界)作者:July、pluskid ;致谢:白石、JerryLead出处:结构之法算法之道blog。前言 动笔写这个支持向量机(support vector machine)是费了不少劲和困难的,原因很简单,一者这个东西本身就并不好懂,要深入学习和研究下去需花费不少时间和精力,二者这个东西也不好讲清
2016-06-07 23:43:04 780
仿人机器人
2018-08-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人