- 博客(36)
- 资源 (6)
- 问答 (1)
- 收藏
- 关注
原创 明源群面经历——学会适当突出
今天明源软件的群面,侥幸胜出,非常惊险。适当突出或许是我突围的一个重要原因吧。 群面的形式各种各样,题目各种各样,不变的是角色。有议论者,有时间的把控者,有会议的领导者,有总结陈词者。这四个角色都有可能被HR看到,但是当HR需要通过群面来刷一大批人的时候,你觉得哪几个类型的突围几率会更大呢?当然是后面三个。今天我们小组八位同学,突围两位,一位是我——总结陈词,一位是时间把控者。 关于时
2014-06-07 16:07:55 1585
原创 阿里数据分析师笔试记录
昨天参加了阿里数据分析师的笔试(实习)。结合笔试前的一些准备,谈一下阿里笔试考核数据分析师具备的素质方向。 首先,有文章称统计学基础、常用数据分析方法(理解数据分析算法、应用场景、使用过程、以及优缺点)、sql语句是考核的方向。昨天参加了之后,大致是这样。但是我有更细化的体会。 首先统计学基础。一般都是选择题。考察的是对概念的理解,不会有关于大型的计算分析题。如:相关性、统计指标、正态
2014-03-30 08:37:09 9213
原创 SQLserver实践总结
仅以此文献给那些初次接触SQLSERVER的孩子么。 本文记录了自己从安装SqlServer到远程连接的过程,属于入门级别,记录下来作为一种知识积累,供大家参考,一家之言,如有错误与不足望大家指出。 1.数据库的安装。数据库的安装了两次才成功,期间出现的错误都是谷歌得到了解决,但是要注意记住数据库的默认安装地址,后面可能要用到;还有将数据库设为混合验证模式,否则只能本台电脑登陆。如果
2013-11-12 11:39:07 1184
转载 巧用“谷歌学术”,轻松完成参考文献
巧用“谷歌学术”,轻松完成参考文献作者: 毛斌 “谷歌学术”是谷歌搜索引擎中的学术检索部分,相对于知网、维普、万方、Pubmed等专业的论文数据库来说功能单薄了些,但具有页面简约、搜索速度快、集国内外文献于一体、某些文章可直接免费下载等优点,对忙于“赶制”毕业论文的广大同学们来说的确是一个不可多得的网站! 文后的参考文献著录格式,是个令人头痛的问题
2013-11-12 11:12:10 22781
转载 quartz表达式
quartz cron 表达式详解字段 允许值 允许的特殊字符 秒 0-59 , - * / 分 0-59 , - * / 小时 0-23 , - * / 日期
2013-07-28 08:40:05 592
转载 Java实现文件目录列表的自定义排序
用Java列出某个文件目录的文件列表是很容易实现的,只用调用File类中的list()方法即可。 String[]list() 返回一个字符串数组,这些字符串指定此抽象路径名表示的目录中的文件和目录。但是此时文件的列表是按照字符串默认的排序方式进行排序的[html] view plaincopy
2013-07-03 15:40:45 3677
转载 URL access forbidden for unknown reason svn: access to 'https://svn.duapp.com/xxxxxx' forbidden
我的开发环境中需要连接到两个svn服务器,自然就需要两个密码,但是svn使用时默认密码是自动保存的,这样我再使用第二个svn服务的时候就一直报错如下:12 URL access forbidden for unknown reasonsvn: access to 'https://svn.duapp.com/xx
2013-07-01 16:54:05 19572 1
原创 一句话记录
工作中总是遇到好多小错误,这些小错误往往耽搁我们很长时间。一句话教训就是将这些零碎的知识点记录下来的一篇文档 1.JAVAIo-------->PrintWriter(缓存的容量限制会导致一部分内容丢失) PrintWriter的print(“aaa”)方法会将aaa存入指定的文件,但是光这句printwriter.print("aaa")是不够的;因为这句话只是讲aaa放到了缓存
2013-04-26 14:00:26 1009
转载 余弦相似性的文本计算思想
余弦相似度: 在向量空间模型中,两个文本D1和D2之间的内容相关度Sim(D1,D2)常用向量之间夹角的余弦值表示,公式为:简化点就是: 其中D1,D2为文本D1,D2的向量表示,|D1|,|D2|分别表示向量D1,D2的模。例如文本D1的特征项为a,b,c,d,权值分别为30,20,20,10,类目C1的特征项为a,c,d,e,权值分别为40,30,20,
2013-04-25 15:39:35 837
原创 svn使用之项目提交
将项目提交到svn服务器上的方法是:右击该项目,选择team----->share project--------->选择你要提交上的svn地址上一步结束之后,再点提交。
2013-04-25 14:34:01 773
原创 实验过程中遇到的mysql DateTime类型与java Calendar问题与解决过程记录
首先,先声明一下我做的事情及其环境。 我做的事情很简单,就是将获取到的数据通过hibernate同的query接口,存入到数据库以及根据时间删除数据库中的数据。数据库表设计时,凡是涉及到时间的字段,字段类型一律设为dataTime。在写删除语句时,where中的时间类型设为java.util.date。而这个date的获得,是通过Calendar的 getTime()方法获得。 首先,是
2013-04-25 11:06:56 1594
原创 好的文章
SVM介绍http://www.cnblogs.com/LeftNotEasy/archive/2011/05/02/basic-of-svm.html
2013-04-22 09:55:36 586
转载 QuartZ Cron表达式
CronTriggerCronTriggers往往比SimpleTrigger更有用,如果您需要基于日历的概念,而非SimpleTrigger完全指定的时间间隔,复发的发射工作的时间表。CronTrigger,你可以指定触发的时间表如“每星期五中午”,或“每个工作日9:30时”,甚至“每5分钟一班9:00和10:00逢星期一上午,星期三星期五“。即便如此,SimpleTrigger一样
2013-04-18 14:09:08 617
原创 jcs缓存机制
JCS缓存介绍1. 概要 JCS是Jakarta的项目Turbine的子项目,它是复合式的缓冲工具,具有配置灵活的特点。JCS提供内存、硬盘、分布式架构、构建缓存服务器四种方式来实现对象缓存;能够很方便的实现缓存的差异化定制。缓冲工具对于读操作远远多于写操作的应用性能提高非常显著。2. JCS原理jcs架构图:在这里面涉及到三个核心概念:elements
2013-01-08 16:27:49 3988
原创 浏览器缓存工作机理理解
浏览器与web服务器之间,存在的http通信协议,很好的保证了浏览器加载网页的速度。 如何提高网页的加载速度,提升用户体验,浏览器的缓存机制,以及协议控制,已经在很大程度上保证了这点的实现。这两种机制下的实现原理如下: 首先,浏览器第一次向服务器发送请求时,服务器除了将内容响应外,还会添加http响应头,响应头里可以包含缓存的时间expires,last-modified,etag等信
2012-12-23 10:38:11 1559
原创 solr高亮显示
solr是在lucene的基础上做的开发,那么在某些功能的实现上,与lucene也会有相似之处。solr的高亮显示(包括自动摘要),是通过hl这个param,以及其相关变量来实现的,hl是hightlight的简写。lucene中是通过highlighter来操作高亮和摘要的。配置高亮的相关属性,是在solrconfig.xml中配置的。在 下进行配置。solrconfig.xml文件中包
2012-12-14 15:56:44 10153 2
原创 Solr(3.3)添加中文分词——以IK为例
1. 了解下载的solr下载的Solr(3.3)包括以下几个包:各个包具体有些什么,这里不细说,详见E:\nutch\nutch 项目文档总结\slor\开源企业搜索引擎SLOR应用教程.pdf。对于example,你可以通过运行start.jar来启动solr服务器。启动命令如下:java -Dsolr.solr.home=nutch -jar start.j
2012-08-12 17:11:27 2785
原创 FuzzyQuery查询
FuzzyQuery查询(可以简单地识别两个相近的词语) 1.在FuzzyQuery类定义中定义了两个成员变量:private float minimumSimilarity;private int prefixLength;minimumSimilarity是最小相似度,取值范围为0.0~1.0,包含0.0但不包含1.0,默认值为0.5。prefixLength是前缀长度,默
2012-07-14 16:58:20 4538
原创 (重要)项目整合nutch索引与查询过程记录
1.索引过程 创建索引,采用的逻辑思路是:使用正则表达式,从nutch抓取流程产生的文件parse_txt中提取不同的内容,建立不同的索引域。该方法的好处是,对于论坛、新闻等不同的采集信息,可以产生不同的索引域。实例如下: parse_txt文档格式(以新闻为例): http://app.finance.ifeng.com/report/all.php请选择研究机构
2012-07-04 16:46:51 1691
原创 关于too many connections问题产生原因的理解
产生too many connections 的直接原因是因为数据库提供的连接被全部占满了。数据库可以提供多少连接,可以再my.cnf(linux)或者my.ini(windows)下设定。这个直接原因的上一次原因是引用程序占据连接不释放。至于为何不释放,那就是各个应用程序的具体问题了。 之前 ,遇到这个问题时,在网上找了很多关于这方面的资料,发现都不能解决这方面的问题。网上的资料只能提供一
2012-06-27 09:16:58 19338 3
原创 nutch自带索引域了解
nutch自带的索引域: AnchorIndexingFilter linkdb中的achor BasicIndexingFilter host、site:这两个域的取值分为两种情况。第一种情况是crawldatum中的Nutch.WRITABLE_REPR_URL_KEY;第二种是传过来的url。第一种情况为空则使用第二种。 url:参
2012-06-26 13:59:43 678
原创 mysql命令行实现信息存储
1.命令格式: mysql>tee E:/hah.sql; 将mysql命令产生的结果输出到位于e盘下的haha.sql文件下。2.注意事项: (1)使用的是斜杠,而不是"\"。注意添加";"。 (2)要想输出控制台的所有命令信息,得在执行命令前,使用该命令。否则,不会输出到指定文件中。 (3)要想看到文件中的内容,得使用缓存刷新命令,或者,结束命令操作,
2012-06-26 12:31:53 515
原创 对于数据库的疑问
1.题记 近日将一个网站部署到服务器上,在访问的过程中,通过linux终端发现,总会有too many connections的错误。为了解决这个错误,从几天前至今,除了两种解决方法,期间涉及到的很多东西,都不理解,估记于此,与给位共同探讨。 2.问题正文 网站有个功能,每个半个小时发邮件。测试的发邮件对象有7个。在tomcat刚启动的那会儿,还可以每隔半个半个小时发送邮件给指定
2012-06-23 17:26:04 764 4
原创 no suitable Driver
出现no suitable Driver的错误很多,有没有加数据库驱动,或者spring 的 applicationContext.xml中数据库连接池的配置信息是否出错。对于后者,要注意两点。一是:xml中属性值中的某些符号得用字符实体替换。xml中预定义的字符实体为:& &&aops; '> ><
2012-06-22 17:00:00 18176 1
原创 myeclipse svn authorization failed
解决方法: 找到svn在本地机器上的密码、身份文件。在windows7操作系统光环境下,该文件放在AppData\Roaming\Subversion下,注意,AppData可能是隐藏的,在隐藏的情况下,搜索是搜不出来东西的!!!找到auth文件夹,删掉!
2012-06-20 08:47:29 2060 1
原创 基于Linux的Tomcat安装
在linux环境下安装tomcat 首先,下载tomcat,看到网上很多资料都下载xxxx.tar.gz类型的tomcat,不明其意。其它版本的难道不行? 下载完了之后,对于这种类型的解压,linux下的命令为tar -zxvf(对于zip的压缩,则是unzip)。 之后就是进入到解压后的文件夹中的bin目录下。 接着运行startup.sh。运行命令是:./sta
2012-06-10 17:55:38 353
原创 基于Linux的JDK安装
1.前言 第一次接触linux,今天下午将虚拟机、linux操作系统安装到了笔记本上。之后,将jdk安装到系统中。2.主要注意点: (1)用户的切换(终端) (2)用户的切换(非终端) (3)u盘挂载 (4)javac失效的原因3.详细 (1)详见E:\plan\Linux\liux相关文档\linux下JDK的配置(1) (2)这里涉及到用户
2012-06-09 17:24:27 484
原创 Nutch流程之Fetch
1. 概述Fetch主要是从待抓取列表中取出url,进行抓取解析,期间产生crawl_parse,carwl_fetch,parse_data,parse_text文件夹。本次将讲解Fetch的大致流程,重点将是各个文件夹的产生过程以及包含的内容。对于Fetch的生产者、消费者模型,这些将不会讲解。2. 正文在Fetcher类的fetch()方法中,设置了执行fet
2012-06-02 15:57:40 2803
原创 NutchBean详解之初始化
NutchBean是实现nutch查询的一个入口,就像Nutch中的crawl一样。在NutchBean的mian函数中,以下一行代码实现了初始化:final NutchBean bean = new NutchBean(conf); 这行代码涉及到的东西很多,包括初始化了LuceneSearchBean、IndexSearcher、FetchedSegments以及lucene中的查询
2012-05-30 08:58:40 1092
原创 基于lucene的nutch索引详解
1. 索引流程详解1.1. crawl中涉及nutch的部分1.1.1.nutch索引产生所需的文件路径以及产生的索引路径 Path linkDb = new Path(dir + "/linkdb"); Path segments = new Path(dir + "/segments"); Path indexes = new Path(dir + "/i
2012-05-29 21:19:23 2884 3
原创 Java多线程
1. 理解多线程1.1. 线程和进程 电脑上的每一个应用程序都是一个进程,一个进程可以包含一个或多个线程。线程是可以并发执行的。main()函数是一个主线程。 Publicvoid main(String[] args){线程1;线程2;。。。。。。。//以下是main函数中的代码线程3;……………//以下是main函数中的代码}进入Main函
2012-05-24 23:19:37 587
原创 Nutch自带查询页面测试是否能够配置多个索引路径
1. 背景 现在有两个含有索引的文件夹,位置分别是:E:\out E:\baidutieba;用luke查看索引,发现在E:\baidutieba的索引中的host域里包括以下内容;在E:\out的host域中,包含内容。2. 测试步骤2.1. 修改nutch-site.xml,修改内容如下:/out/baidutieba/topic2.1.1在n
2012-05-24 20:01:52 856
原创 IK中文分词扩展自定义词典!!!
1.基于分布式系统的自定义分词要求与流程设计 (见图)E:\plan\readingnote\分词与索引\分词\2012-4-202.分词实现原理——词典的加载过程 2.1.分词词典的加载过程涉及到3个类,分别是Configuration类,Directory类,以及DictSegment类。其中前两个类是获得配置文件,获得分词词典的,为词典内容的加载做准备
2012-05-15 18:39:58 14771 3
原创 nutch中集成IK分词的步骤——基于myeclipse管理的nutch项目
1·通知 网上的东西对自己集成插件只具有参考性,不具有指导性,要根据具体情况、具体所引用的包来具体对待。2·步骤 2·1·对myeclipse中项目的组织结构的了解。 在该项目中,是folder,folder只是方便开发人员进行组织管理的,其中的内容还不能作为项目运行的内容。只有sourceFolder中的内容才能当做真正的项目内容。前者往后者的转换,得在folder上右
2012-05-08 18:34:44 860
文本由hash值表示,如何相似性计算
2015-05-04
TA创建的收藏夹 TA关注的收藏夹
TA关注的人