iamaboyy-CSDN博客

原创明源群面经历——学会适当突出

今天明源软件的群面，侥幸胜出，非常惊险。适当突出或许是我突围的一个重要原因吧。群面的形式各种各样，题目各种各样，不变的是角色。有议论者，有时间的把控者，有会议的领导者，有总结陈词者。这四个角色都有可能被HR看到，但是当HR需要通过群面来刷一大批人的时候，你觉得哪几个类型的突围几率会更大呢？当然是后面三个。今天我们小组八位同学，突围两位，一位是我——总结陈词，一位是时间把控者。关于时

2014-06-07 16:07:55 1585

原创阿里数据分析师笔试记录

昨天参加了阿里数据分析师的笔试（实习）。结合笔试前的一些准备，谈一下阿里笔试考核数据分析师具备的素质方向。首先，有文章称统计学基础、常用数据分析方法（理解数据分析算法、应用场景、使用过程、以及优缺点）、sql语句是考核的方向。昨天参加了之后，大致是这样。但是我有更细化的体会。首先统计学基础。一般都是选择题。考察的是对概念的理解，不会有关于大型的计算分析题。如：相关性、统计指标、正态

2014-03-30 08:37:09 9213

原创系统安装体会

系统安装表格裸机换系统光驱换不同系统升级系统命令行运行setup.exe √ 安装盘购买√√√√（光驱外设）ISO刻录

2013-11-27 19:52:12 1142

原创 SQLserver实践总结

仅以此文献给那些初次接触SQLSERVER的孩子么。本文记录了自己从安装SqlServer到远程连接的过程，属于入门级别，记录下来作为一种知识积累，供大家参考，一家之言，如有错误与不足望大家指出。 1.数据库的安装。数据库的安装了两次才成功，期间出现的错误都是谷歌得到了解决，但是要注意记住数据库的默认安装地址，后面可能要用到；还有将数据库设为混合验证模式，否则只能本台电脑登陆。如果

2013-11-12 11:39:07 1184

转载巧用“谷歌学术”，轻松完成参考文献

巧用“谷歌学术”，轻松完成参考文献作者：毛斌 “谷歌学术”是谷歌搜索引擎中的学术检索部分，相对于知网、维普、万方、Pubmed等专业的论文数据库来说功能单薄了些，但具有页面简约、搜索速度快、集国内外文献于一体、某些文章可直接免费下载等优点，对忙于“赶制”毕业论文的广大同学们来说的确是一个不可多得的网站！文后的参考文献著录格式，是个令人头痛的问题

2013-11-12 11:12:10 22781

翻译 goole学术——参考文献引用

http://blog.renren.com/share/111541487/15517062888

2013-10-14 19:19:19 2934

转载 quartz表达式

quartz cron 表达式详解字段允许值允许的特殊字符秒 0-59 , - * / 分 0-59 , - * / 小时 0-23 , - * / 日期

2013-07-28 08:40:05 592

转载 Java实现文件目录列表的自定义排序

用Java列出某个文件目录的文件列表是很容易实现的，只用调用File类中的list()方法即可。 String[]list() 返回一个字符串数组，这些字符串指定此抽象路径名表示的目录中的文件和目录。但是此时文件的列表是按照字符串默认的排序方式进行排序的[html] view plaincopy

2013-07-03 15:40:45 3677

转载 URL access forbidden for unknown reason svn: access to 'https://svn.duapp.com/xxxxxx' forbidden

我的开发环境中需要连接到两个svn服务器，自然就需要两个密码，但是svn使用时默认密码是自动保存的，这样我再使用第二个svn服务的时候就一直报错如下：12 URL access forbidden for unknown reasonsvn: access to 'https://svn.duapp.com/xx

2013-07-01 16:54:05 19572 1

原创一句话记录

工作中总是遇到好多小错误，这些小错误往往耽搁我们很长时间。一句话教训就是将这些零碎的知识点记录下来的一篇文档 1.JAVAIo-------->PrintWriter（缓存的容量限制会导致一部分内容丢失） PrintWriter的print(“aaa”)方法会将aaa存入指定的文件，但是光这句printwriter.print("aaa")是不够的；因为这句话只是讲aaa放到了缓存

2013-04-26 14:00:26 1009

转载余弦相似性的文本计算思想

余弦相似度：在向量空间模型中，两个文本D1和D2之间的内容相关度Sim(D1，D2)常用向量之间夹角的余弦值表示，公式为：简化点就是：其中D1，D2为文本D1，D2的向量表示，|D1|，|D2|分别表示向量D1，D2的模。例如文本D1的特征项为a，b，c，d，权值分别为30，20，20，10，类目C1的特征项为a，c，d，e，权值分别为40，30，20，

2013-04-25 15:39:35 837

原创 svn使用之项目提交

将项目提交到svn服务器上的方法是：右击该项目，选择team----->share project--------->选择你要提交上的svn地址上一步结束之后，再点提交。

2013-04-25 14:34:01 773

原创实验过程中遇到的mysql DateTime类型与java Calendar问题与解决过程记录

首先，先声明一下我做的事情及其环境。我做的事情很简单，就是将获取到的数据通过hibernate同的query接口，存入到数据库以及根据时间删除数据库中的数据。数据库表设计时，凡是涉及到时间的字段，字段类型一律设为dataTime。在写删除语句时，where中的时间类型设为java.util.date。而这个date的获得，是通过Calendar的 getTime()方法获得。首先，是

2013-04-25 11:06:56 1594

原创好的文章

SVM介绍http://www.cnblogs.com/LeftNotEasy/archive/2011/05/02/basic-of-svm.html

2013-04-22 09:55:36 586

转载 QuartZ Cron表达式

CronTriggerCronTriggers往往比SimpleTrigger更有用，如果您需要基于日历的概念，而非SimpleTrigger完全指定的时间间隔，复发的发射工作的时间表。CronTrigger，你可以指定触发的时间表如“每星期五中午”，或“每个工作日9:30时”，甚至“每5分钟一班9:00和10:00逢星期一上午，星期三星期五“。即便如此，SimpleTrigger一样

2013-04-18 14:09:08 617

原创 jcs缓存机制

JCS缓存介绍1. 概要 JCS是Jakarta的项目Turbine的子项目，它是复合式的缓冲工具，具有配置灵活的特点。JCS提供内存、硬盘、分布式架构、构建缓存服务器四种方式来实现对象缓存；能够很方便的实现缓存的差异化定制。缓冲工具对于读操作远远多于写操作的应用性能提高非常显著。2. JCS原理jcs架构图：在这里面涉及到三个核心概念：elements

2013-01-08 16:27:49 3988

原创浏览器缓存工作机理理解

浏览器与web服务器之间，存在的http通信协议，很好的保证了浏览器加载网页的速度。如何提高网页的加载速度，提升用户体验，浏览器的缓存机制，以及协议控制，已经在很大程度上保证了这点的实现。这两种机制下的实现原理如下：首先，浏览器第一次向服务器发送请求时，服务器除了将内容响应外，还会添加http响应头，响应头里可以包含缓存的时间expires，last-modified，etag等信

2012-12-23 10:38:11 1559

原创 solr高亮显示

solr是在lucene的基础上做的开发，那么在某些功能的实现上，与lucene也会有相似之处。solr的高亮显示（包括自动摘要），是通过hl这个param，以及其相关变量来实现的，hl是hightlight的简写。lucene中是通过highlighter来操作高亮和摘要的。配置高亮的相关属性，是在solrconfig.xml中配置的。在下进行配置。solrconfig.xml文件中包

2012-12-14 15:56:44 10153 2

原创 Solr(3.3)添加中文分词——以IK为例

1. 了解下载的solr下载的Solr(3.3)包括以下几个包：各个包具体有些什么，这里不细说，详见E:\nutch\nutch 项目文档总结\slor\开源企业搜索引擎SLOR应用教程.pdf。对于example，你可以通过运行start.jar来启动solr服务器。启动命令如下：java -Dsolr.solr.home=nutch -jar start.j

2012-08-12 17:11:27 2785

原创 FuzzyQuery查询

FuzzyQuery查询（可以简单地识别两个相近的词语） 1.在FuzzyQuery类定义中定义了两个成员变量：private float minimumSimilarity;private int prefixLength;minimumSimilarity是最小相似度，取值范围为0.0~1.0，包含0.0但不包含1.0，默认值为0.5。prefixLength是前缀长度，默

2012-07-14 16:58:20 4538

原创 (重要)项目整合nutch索引与查询过程记录

1.索引过程创建索引，采用的逻辑思路是：使用正则表达式，从nutch抓取流程产生的文件parse_txt中提取不同的内容，建立不同的索引域。该方法的好处是，对于论坛、新闻等不同的采集信息，可以产生不同的索引域。实例如下： parse_txt文档格式（以新闻为例）： http://app.finance.ifeng.com/report/all.php请选择研究机构

2012-07-04 16:46:51 1691

原创关于too many connections问题产生原因的理解

产生too many connections 的直接原因是因为数据库提供的连接被全部占满了。数据库可以提供多少连接，可以再my.cnf(linux)或者my.ini(windows)下设定。这个直接原因的上一次原因是引用程序占据连接不释放。至于为何不释放，那就是各个应用程序的具体问题了。之前，遇到这个问题时，在网上找了很多关于这方面的资料，发现都不能解决这方面的问题。网上的资料只能提供一

2012-06-27 09:16:58 19338 3

原创 nutch自带索引域了解

nutch自带的索引域： AnchorIndexingFilter linkdb中的achor BasicIndexingFilter host、site：这两个域的取值分为两种情况。第一种情况是crawldatum中的Nutch.WRITABLE_REPR_URL_KEY；第二种是传过来的url。第一种情况为空则使用第二种。 url:参

2012-06-26 13:59:43 678

原创 mysql命令行实现信息存储

1.命令格式： mysql>tee E:/hah.sql; 将mysql命令产生的结果输出到位于e盘下的haha.sql文件下。2.注意事项：（1）使用的是斜杠，而不是"\"。注意添加";"。（2）要想输出控制台的所有命令信息，得在执行命令前，使用该命令。否则，不会输出到指定文件中。（3）要想看到文件中的内容，得使用缓存刷新命令，或者，结束命令操作，

2012-06-26 12:31:53 515

原创对于数据库的疑问

1.题记近日将一个网站部署到服务器上，在访问的过程中，通过linux终端发现，总会有too many connections的错误。为了解决这个错误，从几天前至今，除了两种解决方法，期间涉及到的很多东西，都不理解，估记于此，与给位共同探讨。 2.问题正文网站有个功能，每个半个小时发邮件。测试的发邮件对象有7个。在tomcat刚启动的那会儿，还可以每隔半个半个小时发送邮件给指定

2012-06-23 17:26:04 764 4

原创 no suitable Driver

出现no suitable Driver的错误很多，有没有加数据库驱动，或者spring 的 applicationContext.xml中数据库连接池的配置信息是否出错。对于后者，要注意两点。一是：xml中属性值中的某些符号得用字符实体替换。xml中预定义的字符实体为：& &&aops; '> ><

2012-06-22 17:00:00 18176 1

原创 myeclipse svn authorization failed

解决方法：找到svn在本地机器上的密码、身份文件。在windows7操作系统光环境下，该文件放在AppData\Roaming\Subversion下，注意，AppData可能是隐藏的，在隐藏的情况下，搜索是搜不出来东西的！！！找到auth文件夹，删掉！

2012-06-20 08:47:29 2060 1

原创基于Linux的Tomcat安装

在linux环境下安装tomcat 首先，下载tomcat,看到网上很多资料都下载xxxx.tar.gz类型的tomcat，不明其意。其它版本的难道不行？下载完了之后，对于这种类型的解压，linux下的命令为tar -zxvf(对于zip的压缩，则是unzip)。之后就是进入到解压后的文件夹中的bin目录下。接着运行startup.sh。运行命令是：./sta

2012-06-10 17:55:38 353

原创基于Linux的JDK安装

1.前言第一次接触linux，今天下午将虚拟机、linux操作系统安装到了笔记本上。之后，将jdk安装到系统中。2.主要注意点：（1）用户的切换(终端) （2）用户的切换（非终端）（3）u盘挂载（4）javac失效的原因3.详细（1）详见E:\plan\Linux\liux相关文档\linux下JDK的配置(1) （2）这里涉及到用户

2012-06-09 17:24:27 484

原创 Nutch流程之Fetch

1. 概述Fetch主要是从待抓取列表中取出url，进行抓取解析，期间产生crawl_parse，carwl_fetch，parse_data，parse_text文件夹。本次将讲解Fetch的大致流程，重点将是各个文件夹的产生过程以及包含的内容。对于Fetch的生产者、消费者模型，这些将不会讲解。2. 正文在Fetcher类的fetch（）方法中，设置了执行fet

2012-06-02 15:57:40 2803

原创 NutchBean详解之初始化

NutchBean是实现nutch查询的一个入口，就像Nutch中的crawl一样。在NutchBean的mian函数中，以下一行代码实现了初始化：final NutchBean bean = new NutchBean(conf); 这行代码涉及到的东西很多，包括初始化了LuceneSearchBean、IndexSearcher、FetchedSegments以及lucene中的查询

2012-05-30 08:58:40 1092

原创基于lucene的nutch索引详解

1. 索引流程详解1.1. crawl中涉及nutch的部分1.1.1.nutch索引产生所需的文件路径以及产生的索引路径 Path linkDb = new Path(dir + "/linkdb"); Path segments = new Path(dir + "/segments"); Path indexes = new Path(dir + "/i

2012-05-29 21:19:23 2884 3

原创 Java多线程

1. 理解多线程1.1. 线程和进程电脑上的每一个应用程序都是一个进程，一个进程可以包含一个或多个线程。线程是可以并发执行的。main()函数是一个主线程。 Publicvoid main(String[] args){线程1；线程2；。。。。。。。//以下是main函数中的代码线程3；……………//以下是main函数中的代码}进入Main函

2012-05-24 23:19:37 587

原创 Nutch自带查询页面测试是否能够配置多个索引路径

1. 背景现在有两个含有索引的文件夹，位置分别是：E:\out E:\baidutieba;用luke查看索引，发现在E:\baidutieba的索引中的host域里包括以下内容；在E:\out的host域中，包含内容。2. 测试步骤2.1. 修改nutch-site.xml,修改内容如下：/out/baidutieba/topic2.1.1在n

2012-05-24 20:01:52 856

原创 IK中文分词扩展自定义词典！！！

1.基于分布式系统的自定义分词要求与流程设计（见图）E:\plan\readingnote\分词与索引\分词\2012-4-202.分词实现原理——词典的加载过程 2.1.分词词典的加载过程涉及到3个类，分别是Configuration类，Directory类，以及DictSegment类。其中前两个类是获得配置文件，获得分词词典的，为词典内容的加载做准备

2012-05-15 18:39:58 14771 3

原创 nutch中集成IK分词的步骤——基于myeclipse管理的nutch项目

1·通知网上的东西对自己集成插件只具有参考性，不具有指导性，要根据具体情况、具体所引用的包来具体对待。2·步骤 2·1·对myeclipse中项目的组织结构的了解。在该项目中，是folder,folder只是方便开发人员进行组织管理的，其中的内容还不能作为项目运行的内容。只有sourceFolder中的内容才能当做真正的项目内容。前者往后者的转换，得在folder上右

2012-05-08 18:34:44 860