数据挖掘
文章平均质量分 91
generalAI
热爱计算机深度学习人工智能精通经济学的物理学家
展开
-
数据挖掘的基本过程
数据挖掘的过程一般有这么几步:1. 数据预处理,如数据清洗,填补缺失值,填补缺失值方法很多,可以将缺失值较多的样本删除, 或者根据变量之间的相关关系和相似性填补2. 获取预测模型,模型用来根据未来解释变量的值预测目标变量,也可以用来解释变量之间的相 互联系。根据问题的需要可以建立不同的模型。3. 模型选择与评价,获得预测模型后,选择预测效果,稳定性最好的模型作为最终原创 2015-11-07 21:50:22 · 1456 阅读 · 0 评论 -
Java 网络爬虫-htmlparser
---------------------------------------------Spider.java-----------------------------------------------------------------import java.io.BufferedReader;import java.io.InputStreamReader;import转载 2016-06-18 23:20:15 · 471 阅读 · 0 评论 -
Python 网页爬虫
转自:http://www.lovelucy.info/python-crawl-pages.htmlCUHK上学期有门课叫做Semantic Web,课程project是要搜集整个系里面的教授信息,输入到一个系统里,能够完成诸如“如果选了A教授的课,因时间冲突,B教授的哪些课不能选”、“和A教授实验室相邻的实验室都是哪些教授的”这一类的查询。这就是所谓的“语义网”了啊。。。然而最坑爹的是转载 2016-06-20 22:56:11 · 361 阅读 · 0 评论 -
Python 文本挖掘:使用gensim进行文本相似度计算
转自:http://rzcoding.blog.163.com/blog/static/2222810172013101895642665/在文本处理中,比如商品评论挖掘,有时需要了解每个评论分别和商品的描述之间的相似度,以此衡量评论的客观性。评论和商品描述的相似度越高,说明评论的用语比较官方,不带太多感情色彩,比较注重描述商品的属性和特性,角度更客观。那么Python 里转载 2016-06-20 23:13:11 · 3098 阅读 · 0 评论 -
python sklearn做文本分类
文本挖掘的paper没找到统一的benchmark,只好自己跑程序,走过路过的前辈如果知道20newsgroups或者其它好用的公共数据集的分类(最好要所有类分类结果,全部或取部分特征无所谓)麻烦留言告知下现在的benchmark,万谢!嗯,说正文。20newsgroups官网上给出了3个数据集,这里我们用最原始的20news-19997.tar.gz。分为以下几个过程:转载 2016-06-21 17:24:15 · 4589 阅读 · 0 评论 -
基于Bayes和KNN的newsgroup 18828文本分类器的Python实现
基于Bayes和KNN的newsgroup 18828文本分类器的Python实现向@yangliuy大牛学习NLP,这篇博客是数据挖掘-基于贝叶斯算法及KNN算法的newsgroup18828文本分类器的JAVA实现(上)的Python实现。入门为主,没有太多自己的东西。1. 数据集Newsgroup新闻文档集,含有20000篇左右的Usenet文档,平均分配转载 2016-06-21 17:45:30 · 1385 阅读 · 0 评论 -
python操作mysql数据库
Python 标准数据库接口为 Python DB-API,Python DB-API为开发人员提供了数据库应用编程接口。Python 数据库接口支持非常多的数据库,你可以选择适合你项目的数据库:GadFlymSQLMySQLPostgreSQLMicrosoft SQL Server 2000InformixInterbaseOracleSyb转载 2016-06-21 23:00:17 · 451 阅读 · 0 评论 -
在java中调用python方法
1、http://sourceforge.net/projects/jython/下载jython包,把其中的jython.jar添加到工程目录 示例:1、摘自:http://blog.csdn.net/anbo724/article/details/66086321.在java类中直接执行python语句view plainim转载 2016-06-21 23:01:42 · 343 阅读 · 0 评论 -
Java运行Python脚本的几种方式
由于在项目需要执行Python,找寻相关资料,总结出以下几种方式:直接执行Python脚本代码 引用 org.python包1 PythonInterpreter interpreter = new PythonInterpreter(); 2 interpreter.exec("days=('mod','Tue','Wed','Thu','Fri','Sat','S转载 2016-06-21 23:06:41 · 988 阅读 · 0 评论 -
sklearn,SVM 和文本分类
之前做过一些文本挖掘的项目,比如网页分类、微博情感分析、用户评论挖掘,也曾经将libsvm进行包装,写了一个文本分类的开软软件Tmsvm。所以这里将之前做过一些关于文本分类的东西整理总结一下。1 基础知识1. 1 样本整理文本分类属于有监督的学习,所以需要整理样本。根据业务需求,确定样本标签与数目,其中样本标签多为整数。在svm中其中如果为二分类,样本标签一般会设定为-1和1,转载 2016-06-22 19:01:20 · 23249 阅读 · 1 评论 -
Neo4j安装及使用
Neo4j简介Neo4j是一个高性能的,NOSQL图形数据库,它将结构化数据存储在网络上而不是表中。Neo4j也可以被看作是一个高性能的图引擎,该引擎具有成熟数据库的所有特性。程序员工作在一个面向对象的、灵活的网络结构下而不是严格、静态的表中——但是他们可以享受到具备完全的事务特性、企业级的数据库的所有好处。Neo4j因其嵌入式、高性能、轻量级等优势,越来越受到关注。图形数转载 2016-06-23 10:49:47 · 8369 阅读 · 0 评论 -
python模拟登录新浪微博自动获得调用新浪api所需的code
python模拟登录新浪微博自动获得调用新浪api所需的code标签: python新浪api2015-12-21 16:25 1493人阅读 评论(0)收藏举报分类: python 版权声明:本文为博主原创文章,未经博主允许不得转载。目录(?)[+]用这篇文章来记录一下从头到尾调用新浪api的过程转载 2016-08-02 18:00:35 · 3143 阅读 · 0 评论 -
Ubuntu 14.04 安装Octave
安装依赖首先使用apt-get install安装依赖。(以下包括所有推荐的可选包)libjack0 libjack-dev libarpack2-dev libcurl4-gnutls-dev epstool libfftw3-dev transfig libfontconfig1-dev libfreetype6-dev libgl2ps-dev libglpk-dev lib转载 2016-11-13 09:59:09 · 2523 阅读 · 0 评论 -
Java爬虫
转载请注明出处:http://blog.csdn.net/lmj623565791/article/details/23272657今天公司有个需求,需要做一些指定网站查询后的数据的抓取,于是花了点时间写了个demo供演示使用。思想很简单:就是通过Java访问的链接,然后拿到html字符串,然后就是解析链接等需要的数据。技术上使用Jsoup方便页面的解析,当然Jsoup很方转载 2016-06-17 23:38:21 · 361 阅读 · 0 评论 -
python+Selenium2+chrome构建动态网页爬虫工具
python+Selenium2+chrome构建动态网页爬虫工具2013-06-30 11:23 22863人阅读 评论(6) 收藏 举报 分类: python-web(11) 版权声明:本文为博主原创文章,未经博主允许不得转载。 网页爬虫分为静态网页爬虫和动态网页爬虫,前者是指索要获取的网页内容不需要经过js运算或者人工转载 2016-07-14 22:34:42 · 1032 阅读 · 0 评论 -
Linux 高性能集群搭建(1)---ssh节点通信
ssh通信分为客户端(openss-client)和服务器端(openssh-server), 发送信息的为客户端,接受信息的为服务器端,为了实现机器之间的相互通信,在机器上都安装客户端和服务器端,通过下面命令:sudo apt-get install openssh-client openssh-server要实现机器之间通信,服务器端sshd要保持正常运行,通过下面命令:原创 2016-04-26 14:36:25 · 2367 阅读 · 0 评论 -
Linux下网站搭建(2)---Mysql安装和基本操作
1. 打开"终端窗口",输入"sudo apt-get update"-->回车-->"输入系统root用户的密码"-->回车,就可以了。 如果不运行该命令,直接安装mysql,会出现"有几个软件包无法下载,您可以运行apt-get update------"的错误提示,导致无法安装。2. 安装mysql 打开"终端窗口",输入"sudo apt-get ins原创 2016-04-30 11:16:12 · 367 阅读 · 0 评论 -
Linux网站搭建(1)---Apache2安装配置
Apache是web服务器管理系统1. Apache2安装 执行命令: sudo apt-get install apache22. 测试 打开浏览器在网址输入栏中输入本地ip,回车,输出Ubuntu... It works3. 配置 cd /etc/apache2 可以看到配置文件: apache2.conf p原创 2016-04-30 11:15:21 · 4307 阅读 · 0 评论 -
图形数据库Neo4j(1)----简介及使用
Neo4j是一个高性能的,NOSQL图形数据库,它将结构化数据存储在网络上而不是表中。Neo4j也可以被看作是一个高性能的图引擎,该引擎具有成熟数据库的所有特性。程序员工作在一个面向对象的、灵活的网络结构下而不是严格、静态的表中——但是他们可以享受到具备完全的事务特性、企业级的数据库的所有好处。Neo4j因其嵌入式、高性能、轻量级等优势,越来越受到关注。图形数据结构在一个图转载 2016-06-23 22:23:33 · 1282 阅读 · 0 评论 -
图形数据库 Neo4j(2) ----Java
Neo4j 是一个高性能的 NoSQL 图形数据库。Neo4j 使用图(graph)相关的概念来描述数据模型,把数据保存为图中的节点以及节点之间的关系。很多应用中数据之间的关系,可以很直接地使用图中节点和关系的概念来建模。对于这样的应用,使用 Neo4j 来存储数据会非常的自然,要优于使用关系数据库。本文对 Neo4j 进行了深入的介绍,并结合具体的实例来进行详细的说明,可以让您对 Neo4j 有转载 2016-06-23 22:26:19 · 5293 阅读 · 0 评论 -
支持向量机通俗导论(理解SVM的三层境界)
支持向量机通俗导论(理解SVM的三层境界)作者:July、pluskid ;致谢:白石、JerryLead出处:结构之法算法之道blog。前言 动笔写这个支持向量机(support vector machine)是费了不少劲和困难的,原因很简单,一者这个东西本身就并不好懂,要深入学习和研究下去需花费不少时间和精力,二者这个东西也不好讲清转载 2016-06-07 23:43:04 · 794 阅读 · 0 评论 -
文本特征提取
文本挖掘模型结构示意图1. 分词分词实例: 提高人民生活水平:提高、高人、人民、民生、生活、活水、水平分词基本方法: 最大匹配法、最大概率法分词、最短路径分词方法1.1 最大匹配法 中文分词在中文信息处理中是最最基础的,无论机器翻译亦或信息检索还是其他相关应用,如果涉及中文,都离不开中文分词,因此中文分词具有极高的地位转载 2016-06-24 13:45:32 · 715 阅读 · 0 评论 -
python之numpy
NumPy-快速处理数据标准安装的Python中用列表(list)保存一组值,可以用来当作数组使用,不过由于列表的元素可以是任何对象,因此列表中所保存的是对象的指针。这样为了保存一个简单的[1,2,3],需要有3个指针和三个整数对象。对于数值运算来说这种结构显然比较浪费内存和CPU计算时间。此外Python还提供了一个array模块,array对象和列表不同,它直接保存数值,和C语转载 2016-06-13 09:22:39 · 471 阅读 · 0 评论 -
python之scipy
SciPy-数值计算库SciPy函数库在NumPy库的基础上增加了众多的数学、科学以及工程计算中常用的库函数。例如线性代数、常微分方程数值求解、信号处理、图像处理、稀疏矩阵等等。由于其涉及的领域众多、本书没有能力对其一一的进行介绍。作为入门介绍,让我们看看如何用SciPy进行插值处理、信号滤波以及用C语言加速计算。3.1 最小二乘拟合假设有一组实验数据(x[i], y[i]转载 2016-06-13 09:25:12 · 4928 阅读 · 0 评论 -
python之sklearn
Scikit Learn: 在python中机器学习Warning警告:有些没能理解的句子,我以自己的理解意译。翻译自:Scikit Learn:Machine Learning in Python作者: Fabian Pedregosa, Gael Varoquaux先决条件Numpy, ScipyIPythonmatplotlibscik转载 2016-06-13 09:27:17 · 9345 阅读 · 0 评论 -
Java 通过JDBC连接Mysql数据库
Java 通过JDBC连接Mysql数据库的方法和实例【图文说明】JDBC(Java Data Base Connectivity,java数据库连接)是一种用于执行SQL语句的Java API,可以为多种关系数据库提供统一访问,它由一组用Java语言编写的类和接口组成。JDBC提供了一种基准,据此可以构建更高级的工具和接口,使数据库开发人员能够编写数据库应用程序。如果要使用数据库就要添加转载 2016-07-12 15:02:09 · 425 阅读 · 0 评论 -
java抓取动态生成的网页
最近在做项目的时候有一个需求:从网页面抓取数据,要求是首先抓取整个网页的html源码(后期更新要使用到)。刚开始一看这个简单,然后就稀里哗啦的敲起了代码(在这之前使用过Hadoop平台的分布式爬虫框架Nutch,使用起来是很方便,但是最后因为速度的原因放弃了,但生成的统计信息在后来的抓取中使用到了),很快holder.html和finance.html页面成功下载完成,然后解析完holder.ht转载 2016-07-14 22:15:00 · 3335 阅读 · 0 评论 -
Python 爬虫 PhantomJs 获取JS动态数据
Python 爬虫 PhantomJs 获取JS动态数据字数2034 阅读2900 评论16 喜欢8上篇文章我非常high的爬取了一个正常网页的数据对是正常不正常的来了这次研究的就是那些“不正常”的网页 当时是我太天真 后面发现水又深介于现在JS H5的大趋势 大部分网站都是混入了JS数据加载 数据是延迟加载的这样如果我们用原始的ur转载 2016-07-14 22:29:16 · 10074 阅读 · 0 评论 -
Python动态页面抓取超级指南
Python动态页面抓取超级指南时间 2016-03-10 12:13:05 数据工匠原文 http://datartisan.com/article/detail/95.html主题 Python JavaScript当我们进行网页爬虫时,我们会利用一定的规则从返回的 HTML 数据中提取出有效的信息。但是如果网页中含有 JavaScript 代码,我们必转载 2016-07-14 22:32:41 · 6358 阅读 · 1 评论 -
分布式开源库 介绍
分布式开源库 介绍1.有些系统的功能可能重复比如reids既是KV数据库,也可以是缓存系统,还可以是 消息分发系统将来考虑再 以什么样的形式 去合并, 使归纳更准确。2.将来会做个索引,现在 东西太多,导致看的很麻烦[集群管理]mesosProgram against your datacenter like it’s a single pool of resourcesApache Mesos ...转载 2018-04-19 21:03:09 · 918 阅读 · 0 评论