F_Guardian-CSDN博客

转载数据挖掘比赛入门_以去年阿里天猫推荐比赛为例

写在前面赛题介绍赛题FAQ四、数据挖掘初阶1.问题解析2.训练集和测试集的划分与构建3.数据清洗4.领域知识>>特征工程5.我的特征工程6.缺失值的填充7.数据分布不一致的情况8.单模型的调优9.正负比例失衡问题10.模型选择与融合11.

2015-07-18 22:10:14 4209 1

一、简单的Shell Script1.1 首先当然是最简单的Hello World程序如下：二、判断式2.1 test命令三、条件判断式3.2 多重、复杂条件判断式# 一个条件判断，分成功进行与失败进行 (else)if [ 条件判断式 ]; then当条件判断式成立时，可以进行的命令工作内容；else当条件判断式不成立时，可以进行的命令工作内容；fi四、function&&循环4.1 function功能五、调试追踪sh [-nvx] script.sh-n：不要执行sc

2015-04-12 23:02:29 1094

原创 Shell编程入门总结(正则表达式篇)

1.1基础正则表达式RE 字符意义与范例^word 意义：待搜寻的字串(word)在行首！范例：搜寻行首为 # 开始的那一行，并列出行号grep -n '^#' regular_express.txtword$ 意义：待搜寻的字串(word)在行尾！1.3扩展正则表达式RE 字符意义与范例+ 意义：重复『一个或一个以上』的前一个 RE 字符范例：搜寻 (god) (good) (goood)... 等等的字串。那个 o+ 代表『一个以上的 o 』所以，底下的运行成果会将第 1, 9,

2015-04-12 22:26:36 1098

原创 Shell编程入门总结(bash相关命令篇)

1.1变量的显示echo $PATHecho ${PATH}这里PATH就是一个变量，用echo命令即可将变量显示出来，如果显示为空则表示不存在此变量1.2变量的设置与修改规则① 变量与变量内容以一个等号”=”来连接，如下所示：myname=Guardian② 等号两边不能直接接空格符，如下所示为错误的：my name=VBird 或 myname=VBird Tsai③ 变量名称只能是英文字母与数字，但是开头字符不能是数字④ 变量内容若有空格符可以使用双引号或单引号将变

2015-04-12 22:01:38 846

原创 Shell编程入门总结(编辑器Vim篇)

学习shell script之前需要先了解一些vim编辑器相关的知识，因为在vim是UNIX Like系统中通用的编辑器，它会依据文件的扩展名或者文件内的开头信息判断该文件的内容而自动调用该程序的语法判断式，再以颜色来显示程序代码和一般信息。也就是说vim是个”程序编辑器”。目前很多linux中vi默认已设置为vim了。i，I，a，A，o，O进入插入模式，r，R进入替换模式，[Esc]返回一般模式。

2015-04-12 21:43:15 3993

原创应用于SVM文本分类的UD-SVR参数寻优算法

2.2 UD-SVR寻优原理此算法以基于均匀设计的自调用SVR代替传统参数寻优过程，从两个方面对传统SVM寻优方法进行了优化：1) 基于均匀设计仅从全部256组参数组合中选取16组具有代表性的组合，有效降低搜索范围，大幅度缩短了寻优时间；2) 基于此16个参数组合及其评价指标(准确率)以自调用SVR建立评价指标与参数组合之间的关系模型，并以此对全部参数组合进行预测，以预测的评价指标代替传统SVM寻优方法中的交叉测试评价指标，有效提升了寻优效率。

2015-03-26 23:31:23 5343 1

原创应用于文本分类问题的TF-IDF改进方法

TF-IDF是一种统计方法，用以评估某一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。二、传统TF-IDF的不足对于传统的TF-IDF而言，可以计算出在一文档集合中特定文档里所包含的区别于其他文档的重要词语，换言之就是关键词。三、TF-IDF的改进1、TF部分的改进这里考虑将文档内的词频率更改为同一类文档内的词频率可以在一定程度上解决上面提到的第2项不足之处。2、IDF部分的改进传统的IDF通

2015-03-03 19:52:06 18797 8

原创 Solr4.10.2集成Nutch1.9与自带UI界面使用

一、Solr4.10.2与Nutch1.9集成将NUTCH_DIR/conf/schema-solr4.xml拷贝到SOLR_HOME/collection1/conf/，重命名为schema.xml，并在<fields>...</fields>最后添加一行二、Solr4.10.2的自带UI界面(Solritas)1.拷贝solr-4.10.2\contrib\velocity\lib以及solr-4.10.2\dist下面的所有jar包到SOLR_SERVER\WEB-INF\lib目录下

2015-01-17 10:51:23 2839

转载朴素贝叶斯文本分类算法

朴素贝叶斯文本分类算法最近在学习推荐系统过程中，要用到朴素贝叶斯(Naïve Bayes)进行文本的分类。再一次深刻认识到学好基础知识的重要性，要理解朴素贝叶斯，需要有很好的概率与数理统计，离散数学基础。一.Naive Bayes基础知识。对于随机试验E有两个随机事件A,B,且P(B) > 0 那么在B事件发生的条件下A发生的概率为：其中P(AB)为A，B两个事

2015-01-10 16:01:49 2256

原创 Nutch1.9安装配置与基本使用介绍

Nutch1.9安装配置与基本使用介绍一、Nutch1.9的安装配置环境：Ubuntu14.10进入压缩包所在目录，用tar–zxvf apache-nutch-1.9-src.tar.gz解压二、Nutch1.9的爬取命令1.循环迭代爬取进入local目录下后可以通过执行bin/crawl看到爬取命令的提示bin/crawl <seedDir> <crawDir><solrURL> <numberOfRounds>三、Nutch1.9的读取命令1.bin/nutch readdbrea

2015-01-08 12:55:19 3612 1

转载通过JDBC进行简单的增删改查(以MySQL为例)

通过JDBC进行简单的增删改查（以MySQL为例）前言：什么是JDBC　　维基百科的简介：Java 数据库连接，（Java Database Connectivity，简称JDBC）是Java语言中用来规范客户端程序如何来访问数据库的应用程序接口，提供了诸如查询和更新数据库中数据的方法。JDBC也是Sun Microsystems的商标。它JDBC是面向关系型数据库的。

2014-12-29 11:07:48 2337

原创 Solr4.10.2的IK Analyzer分词器配置

Solr4.10.2的IK Analyzer分词器配置2. 下载IK分词器地址：http://code.google.com/p/ik-analyzer/downloads/list下载IK Analyzer2012FF_hf1.zip和IK Analyzer2012 FF_SRC.rar配置useSmart失效的问题但配置启动后发现分词结果还是一样都采用了最细粒度切分，所以我们要手动解决这个问题Solr4.10.2中文分词配置出错补充：尝试过程中遇到的问题基本都是版本问题，solr版本直接对分

2014-12-24 12:55:17 3539 1

原创 Solr4.10.2的Tomcat配置

Solr4.10.2的Tomcat配置1. 从官网下载相应的文件并解压Solr我使用的最新的4.10.2Tomcat版本基本都能用，我windows上用都6.x版本，linux上配的7.xSolr地址：http://lucene.apache.org/solr/Tomcat的配置我在这里就不说了网上也是很多，安装配置好Tomcat就可以继续了 2. 建一个新

2014-12-23 23:20:01 2083

原创【Lucene学习笔记】索引的增删改查与查看工具

一、基本增删改查二、索引查看工具Luke三、关于Lucene4.10.2中的FieldType而在最新的4.10.2版本中是由以下这些参数来与之对应的：TextField.TYPE_STORED 被分词索引且存储TextField.TYPE_STORED 被分词索引但不存储

2014-12-18 22:39:35 1654

原创【Lucene学习笔记】基本使用和认识

基本认识和使用一、Lucene是什么这个在之前转载的2篇相关博文中已经介绍的很清晰了，包括一些基本概念什么的，在这篇笔记里我就不多赘述了，简单来说Lucene就是一个开放源代码的全文检索引擎工具包，即它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎。目前最新的是4.10.2版本，所以我使用的是这个版本来进行学习实验的。二、

2014-12-17 23:37:31 743

原创 HDOJ 5135(Little Zu Chongzhi's Triangles)

这是2014年广州赛区的现场赛试题，比赛前一天刚好看了一个题目用类似的一个方法解的，就把这道题放这里来mark一下这个方法吧，基本思路就是递归搜索，再加上一点位运算标记的技巧，AC代码如下：

2014-12-04 21:53:43 929

转载 Lucene入门与介绍

Lucene简介1.1什么是luceneApache Lucene是一个基于Java全文搜索引擎，利用它可以轻易地为Java软件加入全文搜寻功能。Lucene是一个基于 Java的全文信息检索工具包，它不是一个完整的搜索应用程序，而是为你的应用程序提供索引和搜索功能。可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。因此它并不像www.baidu.com或

2014-12-04 14:54:18 901

转载 Lucene工作原理

Lucene 工作原理Lucene是一个高性能的java全文检索工具包，它使用的是倒排文件索引结构。该结构及相应的生成算法如下：0）设有两篇文章1和2　　文章1的内容为：Tom lives in Guangzhou,I live in Guangzhou too.　　文章2的内容为：He once lived in Shanghai.1)由于lucene是基

2014-12-04 14:51:52 550

原创【算法与实现】动态规划(基本思想)

动态规划(基本思想)一、动归的基本思路案例：数字三角形 POJ1163在上面的数字三角形中寻找一条从顶部到底边的路径，使得路径上所经过的数字之和最大。路径上的每一步都只能往左下或右下走。只需要求出这个最大和即可，不必给出具体路径。思路：如果简单的用递归的方法来实现效率，在提交时会超时，应为不做任何处理的递归中进行了太多的重复计算，解决方法有2个，一个是记忆型递归

2014-11-30 00:07:57 1231

转载 Win7+CentOS7双系统安装

前言：自己倒腾了2天才装好的双系统，在网上找了很多教程，最开始想直接用硬盘安装的方式结果没成功，不知道什么原因，所以只好改到用U盘安装，但中间还是有很多值得注意的地方，所以把我自己的安装过程挂在这里分享一下。首先是按照网上的一个教程操作的，前面的步骤都和他是一样的，虽然他是win8.1系统，教程原地址是：

2014-10-08 20:13:03 5822

原创【算法与实现】线段树&树状数组(下)

线段树&树状数组(下)二、树状数组 1. 结构描述：对于序列a，我们设一个数组C满足下列条件：① C[i]=a[i-2^k+1]+ …+a[i]② K为i在二进制下末尾0的个数③ 2^k就是i保留最右边的1，其余位全变0④ i从1开始计算则有：C即为a的树状数组对于i，如何求2^k？2^k=i&(i^(

2014-09-30 01:26:25 782

原创【算法与实现】线段树&树状数组(上)

线段树&树状数组(上)一、线段树 1. 结构描述：线段树是一种二叉搜索树，与区间树相似，它将一个区间划分成一些单元区间，每个单元区间对应线段树中的一个叶结点。对于线段树中的每一个非叶子节点[a,b]，它的左儿子表示的区间为[a,(a+b)2]，右儿子表示的区间为[(a+b)2+1,b]。因此线段树是平衡二叉树，最后的子节点数目为N，即整个线段区间的长度。使用线段树可以快速的

2014-09-30 00:24:29 1601 1

原创【JavaSE】网络编程 Jpcap的使用

Jpcap的使用： 1.安装的话网上有很多教程，这里就不做说明了，大家直接百度吧，要说的一点是64位和32位的主机是用的dll文件是不同的(至少32位不能用在64位上)，在调整好这个问题之后，我自己的主机上还出现了一个问题，自己的机器是64位的，用实验室的32位主机可以完美运行的程序放到我的主机上就会报出如下的错误：java.lang.NoSuchMethodError:setRout

2014-07-02 21:58:19 5382 7

原创【JavaSE】网络编程基础知识

1.JDK中的网络类.通过java.net包中的类，java程序能够使用TCP或UDP协议在互联网上进行通讯.Java通过扩展已有的流式输入/输出接口和增加在网络上建立输入/输出对象特性这两个方法支持TCP/IP.Java支持TCP和UDP协议族。TCP用于网络的可靠的流式输入/输出。UDP支持更简单的、有效的、快速的、点对点的数据报模式2.创建URL.URL(Unif

2014-06-19 20:22:20 1101

原创 CSDN编程挑战 2的补码

2的补码题目详情:在计算机中，整数是以2的补码的形式给出的。给出整数A和B，假设计算机是32位机，求从A到B之间的所有二进制数中，一共用了多少个1。输入格式：多组数据，每组数据一行，由两个整数A,B,-2147483648输出格式：每组输出一行，从A到B使用的1的个数。答题说明:输入样例－2 00 00 1输出样例：630

2014-06-09 21:50:13 887

原创【算法与实现】8大排序详解

1.冒泡法排序算法描述：冒泡排序是一种交换排序，主要思想就是比较相邻元素，然后将较小的元素交换到前面，较大的元素交换到后面。稳定性描述：由于交换是逐个进行的，且相等的元素不进行交换，所以冒泡法排序是一种稳定排序算法。 2.直接选择排序算法描述：直接选择排序是一种选择排序，主要思想是在给定序列中选择最小的元素，与序列中第1个元素进行交换，然后在余下的元素中选择总序列中

2014-05-19 18:05:22 811

原创【JavaWeb】基础知识总结05 jQuery

【JavaWeb】基础知识总结05 jQuery一.jQuery简介及基本使用1.Jquery是继prototype之后又一个优秀的Javascript框架。它是轻量级的js库，它兼容CSS3，还兼容各种浏览器（IE 6.0+, FF 1.5+, Safari 2.0+, Opera 9.0+），jQuery2.0及后续版本将不再支持IE6/7/8浏览器。jQuery使用户能更

2014-05-11 14:21:24 1120

原创【JavaWeb】基础知识总结04 JS基础

【JavaWeb】基础知识总结04 JS基础一.JavaScript简介1.JavaScript语言是一种面向对象、事件驱动式的网页脚本语言。作用在于交互式操作；表单验证；网页特效；Web游戏；服务器脚本开发等。 2.JavaScript的格式：JavaScript区分大小写；JavaScript脚本程序须嵌入HTML文件中，或者外部js文件导入；每行写一条脚本语句；

2014-05-11 13:03:41 1386

原创【JavaWeb】基础知识总结03 Servlet

一.Servlet简介1.JavaServlet是和平台无关的服务器组件，它运行在Servlet容器中。Servlet容器负责Servlet和客户的通信以及调用Servlet的方法，Servlet和客户的通信采用“请求/响应”的模式。2.servlet主要用于处理jsp页面所请求的一些数据信息再转发给jsp页面给予客户端回应.3.servlet是单实例的，即当服务器启动时实例就会生成，用户端访问的就一直是服务器启动第一次访问时生成的实例，直到关闭服务器重启，才会再次重新生成一次实例。

2014-05-11 11:31:16 1102

原创【JavaWeb】基础知识总结02 JSP

1.JSP(Java Server Pages) 2.内可以嵌入任何合法的JAVA程序，包括Swing的GUI程序。 3.程序操作都在服务器端执行，网上传给客户端的仅仅是结果。 4. { %> 你好 } %>用JAVA循环语句来循环HTML语句 5.JSP最终都会转化成Serv

2014-05-11 10:46:46 1158

原创【JavaWeb】基础知识总结01 准备知识

一.HTML 1.HTML (Hyper Text Markup Language),超文本标记语言。后缀名一般为：.htm .html。 2.html大体框架：（标题）（大体内容）链接

2014-05-11 10:06:00 1148

追梦赤子心