数据挖掘比赛入门_以去年阿里天猫推荐比赛为例 写在前面赛题介绍赛题FAQ四、数据挖掘 初阶1.问题解析2.训练集和测试集的划分与构建3.数据清洗4.领域知识>>特征工程5.我的特征工程6.缺失值的填充7.数据分布不一致的情况8.单模型的调优9.正负比例失衡问题10.模型选择与融合11.
Shell编程入门总结(语法篇) 一、简单的Shell Script1.1 首先当然是最简单的Hello World程序如下:二、判断式2.1 test命令三、条件判断式3.2 多重、复杂条件判断式# 一个条件判断,分成功进行与失败进行 (else)if [ 条件判断式 ]; then当条件判断式成立时,可以进行的命令工作内容;else当条件判断式不成立时,可以进行的命令工作内容;fi四、function&&循环4.1 function功能五、调试追踪sh [-nvx] script.sh-n:不要执行sc
Shell编程入门总结(正则表达式篇) 1.1基础正则表达式RE 字符 意义与范例^word 意义:待搜寻的字串(word)在行首!范例:搜寻行首为 # 开始的那一行,并列出行号grep -n '^#' regular_express.txtword$ 意义:待搜寻的字串(word)在行尾!1.3扩展正则表达式RE 字符 意义与范例+ 意义:重复『一个或一个以上』的前一个 RE 字符范例:搜寻 (god) (good) (goood)... 等等的字串。 那个 o+ 代表『一个以上的 o 』所以,底下的运行成果会将第 1, 9,
Shell编程入门总结(bash相关命令篇) 1.1变量的显示echo $PATHecho ${PATH}这里PATH就是一个变量,用echo命令即可将变量显示出来,如果显示为空则表示不存在此变量1.2变量的设置与修改规则① 变量与变量内容以一个等号”=”来连接,如下所示:myname=Guardian② 等号两边不能直接接空格符,如下所示为错误的:my name=VBird 或 myname=VBird Tsai③ 变量名称只能是英文字母与数字,但是开头字符不能是数字④ 变量内容若有空格符可以使用双引号或单引号将变
Shell编程入门总结(编辑器Vim篇) 学习shell script之前需要先了解一些vim编辑器相关的知识,因为在vim是UNIX Like系统中通用的编辑器,它会依据文件的扩展名或者文件内的开头信息判断该文件的内容而自动调用该程序的语法判断式,再以颜色来显示程序代码和一般信息。也就是说vim是个”程序编辑器”。目前很多linux中vi默认已设置为vim了。i,I,a,A,o,O进入插入模式,r,R进入替换模式,[Esc]返回一般模式。
应用于SVM文本分类的UD-SVR参数寻优算法 2.2 UD-SVR寻优原理 此算法以基于均匀设计的自调用SVR代替传统参数寻优过程,从两个方面对传统SVM寻优方法进行了优化:1) 基于均匀设计仅从全部256组参数组合中选取16组具有代表性的组合,有效降低搜索范围,大幅度缩短了寻优时间;2) 基于此16个参数组合及其评价指标(准确率)以自调用SVR建立评价指标与参数组合之间的关系模型,并以此对全部参数组合进行预测,以预测的评价指标代替传统SVM寻优方法中的交叉测试评价指标,有效提升了寻优效率。
应用于文本分类问题的TF-IDF改进方法 TF-IDF是一种统计方法,用以评估某一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。二、传统TF-IDF的不足对于传统的TF-IDF而言,可以计算出在一文档集合中特定文档里所包含的区别于其他文档的重要词语,换言之就是关键词。三、TF-IDF的改进1、TF部分的改进这里考虑将文档内的词频率更改为同一类文档内的词频率可以在一定程度上解决上面提到的第2项不足之处。2、IDF部分的改进传统的IDF通
Solr4.10.2集成Nutch1.9与自带UI界面使用 一、Solr4.10.2与Nutch1.9集成将NUTCH_DIR/conf/schema-solr4.xml拷贝到SOLR_HOME/collection1/conf/,重命名为schema.xml,并在<fields>...</fields>最后添加一行二、Solr4.10.2的自带UI界面(Solritas)1.拷贝solr-4.10.2\contrib\velocity\lib以及solr-4.10.2\dist下面的所有jar包到SOLR_SERVER\WEB-INF\lib目录下
朴素贝叶斯文本分类算法 朴素贝叶斯文本分类算法最近在学习推荐系统过程中,要用到朴素贝叶斯(Naïve Bayes)进行文本的分类。再一次深刻认识到学好基础知识的重要性,要理解朴素贝叶斯,需要有很好的概率与数理统计,离散数学基础。一.Naive Bayes基础知识。对于随机试验E有两个随机事件A,B,且P(B) > 0 那么在B事件发生的条件下A发生的概率为:其中P(AB)为A,B两个事
Nutch1.9安装配置与基本使用介绍 Nutch1.9安装配置与基本使用介绍一、Nutch1.9的安装配置环境:Ubuntu14.10进入压缩包所在目录,用tar–zxvf apache-nutch-1.9-src.tar.gz解压二、Nutch1.9的爬取命令1.循环迭代爬取进入local目录下后可以通过执行bin/crawl看到爬取命令的提示bin/crawl <seedDir> <crawDir><solrURL> <numberOfRounds>三、Nutch1.9的读取命令1.bin/nutch readdbrea
通过JDBC进行简单的增删改查(以MySQL为例) 通过JDBC进行简单的增删改查(以MySQL为例)前言:什么是JDBC 维基百科的简介:Java 数据库连接,(Java Database Connectivity,简称JDBC)是Java语言中用来规范客户端程序如何来访问数据库的应用程序接口,提供了诸如查询和更新数据库中数据的方法。JDBC也是Sun Microsystems的商标。它JDBC是面向关系型数据库的。
Solr4.10.2的IK Analyzer分词器配置 Solr4.10.2的IK Analyzer分词器配置2. 下载IK分词器地址:http://code.google.com/p/ik-analyzer/downloads/list下载IK Analyzer2012FF_hf1.zip和IK Analyzer2012 FF_SRC.rar配置useSmart失效的问题但配置启动后发现分词结果还是一样都采用了最细粒度切分,所以我们要手动解决这个问题Solr4.10.2中文分词配置出错补充:尝试过程中遇到的问题基本都是版本问题,solr版本直接对分
Solr4.10.2的Tomcat配置 Solr4.10.2的Tomcat配置1. 从官网下载相应的文件并解压Solr我使用的最新的4.10.2Tomcat版本基本都能用,我windows上用都6.x版本,linux上配的7.xSolr地址:http://lucene.apache.org/solr/Tomcat的配置我在这里就不说了网上也是很多,安装配置好Tomcat就可以继续了 2. 建一个新
【Lucene学习笔记】索引的增删改查与查看工具 一、基本增删改查二、索引查看工具Luke三、关于Lucene4.10.2中的FieldType而在最新的4.10.2版本中是由以下这些参数来与之对应的:TextField.TYPE_STORED 被分词索引且存储TextField.TYPE_STORED 被分词索引但不存储
【Lucene学习笔记】基本使用和认识 基本认识和使用一、Lucene是什么这个在之前转载的2篇相关博文中已经介绍的很清晰了,包括一些基本概念什么的,在这篇笔记里我就不多赘述了,简单来说Lucene就是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎。目前最新的是4.10.2版本,所以我使用的是这个版本来进行学习实验的。 二、
HDOJ 5135(Little Zu Chongzhi's Triangles) 这是2014年广州赛区的现场赛试题,比赛前一天刚好看了一个题目用类似的一个方法解的,就把这道题放这里来mark一下这个方法吧,基本思路就是递归搜索,再加上一点位运算标记的技巧,AC代码如下:
Lucene入门与介绍 Lucene简介1.1什么是luceneApache Lucene是一个基于Java全文搜索引擎,利用它可以轻易地为Java软件加入全文搜寻功能。Lucene是一个基于 Java的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。因此它并不像www.baidu.com或
Lucene工作原理 Lucene 工作原理Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下:0)设有两篇文章1和2 文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too. 文章2的内容为:He once lived in Shanghai.1)由于lucene是基
【算法与实现】动态规划(基本思想) 动态规划(基本思想)一、动归的基本思路 案例:数字三角形 POJ1163在上面的数字三角形中寻找一条从顶部到底边的路径,使得路径上所经过的数字之和最大。路径上的每一步都只能往左下或右下走。只需要求出这个最大和即可,不必给出具体路径。 思路:如果简单的用递归的方法来实现效率,在提交时会超时,应为不做任何处理的递归中进行了太多的重复计算,解决方法有2个,一个是记忆型递归
Win7+CentOS7双系统安装 前言:自己倒腾了2天才装好的双系统,在网上找了很多教程,最开始想直接用硬盘安装的方式结果没成功,不知道什么原因,所以只好改到用U盘安装,但中间还是有很多值得注意的地方,所以把我自己的安装过程挂在这里分享一下。首先是按照网上的一个教程操作的,前面的步骤都和他是一样的,虽然他是win8.1系统,教程原地址是: