自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(115)
  • 资源 (1)
  • 收藏
  • 关注

原创 [译]Python Performance

性能技巧目录目录 1其他版本 2概述:优化需要优化的 2选择正确的数据结构 2排序 2字符串连接 4循环 4避免“点”... 5局部变量 5初始化字典元素 6import语句的消耗 7数据聚合 8少做 9Python不是C 9使用xrange来代替range 11执行时绑定函数 12性能分析代码 12性能分析 13cProfile和Hotshot模块 13Trace模块 13可视化性能评估结果 1...

2018-07-13 15:30:28 419

原创 Python Speed Performance Tips

This page is devoted to various tips and tricks that help improve the performance of your Python programs. Wherever the information comes from someone else, I've tried to identify the source. Pytho...

2018-07-13 14:21:20 471

原创 bootstrapValidator 的使用

web部分 <form class="form-horizontal" role="form" id="form" name="form" > <div class="form-body"> <div class="form-group"> <label class

2017-01-19 09:21:48 156

原创 ENDNOTE使用方法

大家好,这是以前搜集的一篇ENDNOTE使用方法,具体作者已经不知道了,现在引用来大家交流学习,希望对大家有用 ENDNOTE使用方法,常用! 一、简介   EndNote是一款用于海量文献管理和批量参考文献管理的工具软件,自问世起就成为科研界的必备武器。在前EndNote时代,文献复习阶段从各大 数据库中搜集到的文献往往千头万绪、或重复或遗漏,难以管理,阅读所作的笔记则分散各处,难以高效地进行...

2015-12-14 16:29:42 647

原创 2015的macbookair,怎么装win8系统

先下载个WIN8原版系统,百度搜 msdn i tell you可以下载到Macbook机桌面准备个8G或以上U盘,用于制作(Win8系统启动盘和存储支持Win8的驱动程序)制 作系统启动安装U盘。 打开MAC机的Bootcamp助手,点继续,进入页面:点选第1和第2项:“创建Windows8或更高版本的安装盘”(即系统启动U盘)。第3项先不 点选。点继续。  进入新...

2015-10-23 22:03:54 637

原创 Nutch1.7二次开发培训讲义

做Nutch二次开发,开发阶段用什么操作系统都可以,只要有JDK和Eclipse即可,源代码的管理需要使用一个集中的版本控制系统,可以使用SVN或GIT,建议采用Bitbucket免费的私有库托管。如果想阶段性地在Hadoop集群上面试运行,需要搭建一个Hadoop伪分布式集群或完全分布式集群,开发组可以共用一个集群。 1、下载并解压eclipse(集成开发环境)    使用Stan...

2015-09-16 15:23:56 118

原创 主要的竞争情报分析研究方法

8.1 竞争情报分析方法综述8.1.1 思维分析方法    (1)综合归纳    (2)对比分析    (3)典型分析    (4)背景分析    (5)专家调查8.1.2 常用的竞争情报分析方法    8.1.2.1行业分析:五种力量产业模型、产业情景分析、产业细分化    8.1.2.2基于组织的竞争情报分析:竞争对手跟踪、核心竞争力分析、关键成功因素分析、管理档案...

2015-06-25 17:40:32 1284

原创 竞争情报的网络信息源

1、网上信息:       门户、站点资源       BBS、网上讨论       商情数据库及其利用:美国商务信息数据库、道琼斯数据库、EBSCO商业资源数据库、盖尔商业资源数据库、Dialog检索系统(专利、商标、著作权、政 策法规、商业与产业数据库、商业统计库、国际公司名录与财务数据库、产品信息库、美国公司名录与财务数据库)、Lexis-Nexis、 1.1 国内商情数据库   中国咨询...

2015-06-25 17:32:00 356

原创 用Windows Server 2008搭建时钟同步服务器

时钟同步功能简介: 在Windows系统中,时钟同步是通过Windows Time服务(W32Time)完成的。W32Time通过NTP(Network Time Protocol)协议访问目标时钟同步服务器的123端口进行时间同步。服务器的地址可以在“时间与日期”设置窗口的“Internet Time” 选项中进行设置。Windows默认提供了几个互联网上的时钟同步服务器地址,比如:time....

2015-01-22 11:57:09 179

原创 PHP+APACHE+MYSQL配置

一、准备,需要相关网站下载安装文件:apache  http://httpd.apache.org/download.cgiphp  http://windows.php.net/download/mysql  http://www.mysql.com/downloads/二、安装1.PHP安装使用绿色方式,下载Zip文件解压。2.配置在解压的根目录下找到php.ini-de...

2014-10-03 16:20:45 65

原创 nutch-default.xml 配置范例

nutch的配置文件属性很多,需要根据实际需要详细配置。下面是经过验证的生产环境配置文件:<?xml version="1.0"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><!-- Licensed to the Apache Software Foundation (AS...

2014-07-22 20:20:31 174

原创 nutch本地模式调试环境配置

    nutch本地模式调试可以跟踪详细的爬取过程,便于调试。现将环境配置做如下说明:   1、apache官网下载nutch文件,我们以apache-nutch-1.4-bin.tar.gz 为例。将apache-nutch-1.4-bin.tar.gz解压到linux工作目录。   2、执行 chmod +x runtime/local/bin/nutch 修改权限。   3、...

2014-07-22 17:33:22 130

原创 nutch分布式调试环境配置

 准备:hadoop单机模式设置,参考:http://peigang.iteye.com/admin/blogs/2093070 nutch配置:1、解压nutch文件,此处以apache-nutch-1.4-bin.tar.gz为例。2、将编译好的nutch文件拷贝到nutch/runtime/local 目录下。注意lib下的.jar文件必须与编译环境的同步。同时将apa...

2014-07-17 14:35:06 92

原创 hadoop单机模式配置

Hadoop单机模式调试很方便,现将配置过程作一描述:环境准备:JAVA环境要调试安装正常,可以在命令行执行java -version 查看结果,能正常显示版本即可。java环境变量配置示例如下: export JAVA_HOME=/home/$USER/jdk1.7export JRE_HOME=/home/$USER/jdk1.7 ex...

2014-07-17 10:56:57 185

原创 Red Hat Enterprise Linux 启用访问80端口

 Red Hat Enterprise Linux 下将tomcat的server.xml的端口改为80后非root身份无法启动tomcat.这是因为只有root用户才可访问1024以下的端口。解决方法:重将server.xml中的端口改为8080,然后做IP映射。以超级用户登录执行如下命令即可。 iptables -t nat -A PREROUTING -p tcp -...

2013-07-22 11:01:02 1062

nutch 正文提取流程解析

nutch正文提取在Fatcher的run方法中进行,本文将相关调用对象结构进行分析说明,各对象结构如下图所示:  未完待续:

2013-05-03 17:59:34 105

原创 转:一句话解决高并发

高并发访问的核心原则其实就一句话“把所有的用户访问请求都尽量往前推”。如果把来访用户比作来犯的"敌人",我们一定要把他们挡在800里地以外,即不能让他们的请求一下打到我们的指挥部(指挥部就是数据库及分布式存储)。如:能缓存在用户电脑本地的,就不要让他去访问CDN。 能缓存CDN服务器上的,就不要让CDN去访问源(静态服务器)了。能访问静态服务器的,就不要去访问动态服务器。以此类推:能...

2013-03-27 21:08:02 94

原创 用Eclipse开发nutch准备工作

 本文来源于:http://zettadata.blogspot.com/2011/12/eclipsenutch.html,由于某种不“不可知”的原因无法打开,现在转载贴图。以给其他人提供帮助。                   ...

2012-09-20 11:34:16 67

原创 Ubuntu为Tomcat启用80端口

一、tomcat部署调试 Update the package repositorysudo apt-get updatesudo apt-get upgrade --show-upgrades  Install the authbind package  sudo apt-get install authbind This package al...

2012-09-11 15:05:36 104

hbase 程序开发环境准备

准备环境:1、jdk安装调试完毕2、eclipse安装调试完毕 hbase配置1、将如下jar文件引入工程中: hadoop-core-1.0.0.jar,hbase-0.94.0-security.jar,zookeeper-3.4.3.jar,protobuf-java-2.4.0a.jar2、拷贝hbase运行环境中的hbase-site.xml到工程根目录下。3...

2012-08-10 12:25:19 101

原创 mysql客户端安装导致服务无法启动

ubuntu12.04版本中安装了mysql-5.1.63-linux-x86_64-glibc23。安装完配置完毕后可以正常使用。在意外安装了mysql-client-5.5后,重启服务器导致执行mysql start出现如下提示:  #mysql -u root -p出现,ERROR 2002 (HY000): Can't connect to local MySQL serv...

2012-08-07 11:52:45 96

hbase安装

 准备:1、JDK安装调试完毕2、hadoop安装调试完毕。3、下载hbase,地址:http://www.apache.org/dyn/closer.cgi/hbase/ ;本次安装使用版本hbase-0.94.0-security(未确认是否要打补丁)4、 ulimit 和 nproc: Base是数据库,会在同一时间使用很多的文件句柄。大多数linux系统使用的默认值10...

2012-07-05 13:59:22 61

原创 crontab使用经验(转)

crontab使用经验  本文出自孤风颠影|网站运维 网址:http://yunhaozou.org/linux/109.html.  作为网站运维工程师,经常要与crontab打交道,通过使用crontab自动运行定时任务从而达到自动化运维的目的。在我的日常工作中也深刻地感受到了crontab的方便、高效。但是最近在使用crontab过程中,接连遇到头疼的问题:手动执行脚本时一点问题都没...

2012-06-25 19:46:34 56

原创 转:Solr开发文档

Solr开发文档原文地址:http://www.cnblogs.com/hoojo/archive/2011/10/21/2220431.html 

2012-06-24 19:12:58 58

原创 分析师给出关于Hadoop的12个事实

分析师给出关于Hadoop的12个事实TechTarget中国原创内容,原文链接:http://www.searchbi.com.cn/showcontent_62856.htm?info=databaseweekly20120622 【TechTarget中国原创】现如今,Apache Hadoop已经无人不知无人不晓。当年雅虎搜索工程师Doug Cutting开发出这个用以创建分布式计...

2012-06-24 13:36:31 104

原创 nutch1.4 分布式爬取

从nutch1.3开始本地抓取(单机),分布式抓取(集群)所使用的配置文件和命令单独分开。 NUTCH_HOME/conf 为分布式抓取所用配置文件 NUTCH_HOME/runtime/deply/bin/nutch 分布式抓取命令 NUTCH_HOME/runtime/local/conf 为本地抓取所用配置文件 NUTCH_HOME/runtime/local/bin/nutch 本地抓取命...

2012-06-19 12:02:35 96

nutch1.4:爬虫定时抓取设置

nutch1.4定时爬取数据配合linux定时任务可以实现nutch的自动定时爬取,linux定时任务请参考《 Linux定时执行任务命令 :at和crontab》 步骤如下:1、首先查看当前用户的 crontab服务执行命令: crontab -l执行结果:no crontab for ***表示没有定义 crontab 服务 2、编辑crontab服...

2012-06-13 15:03:36 89

原创 Linux定时执行任务命令 :at和crontab(转)

     在Linux下要定时执行任务,可以有两种方法实现:at命令和crontab。如果我们只是想要让特定任务运行一次,则可以使用at监控程序;如果是无人作业的情况,那么可以使用cron服务。     本文介绍在Linux下的两种定时执行任务的方法:at命令,以及crontab服务。(1)at命令假如我们只是想要让特定任务运行一次,那么,这时候就要用到at监控程序了。设置at命令很简单,指示...

2012-06-13 14:08:35 184

原创 nutch1.4 开发:增加外部jar包

ntuch1.4开发中可能会涉及到引入外部jar包的情况,比如数据库访问代码需要hibernate3.jar。这种情况只需要在ntuch/lib中拷贝hibernate3.jar,此时ant编译时就会自动引入hibernate3.jar文件。然后再classpath中引入hibernate3.jar,业务代码开发中也可以正常引用相关文件了。...

2012-06-11 14:48:45 76

nutch1.4 爬虫父页面参数传递到子页面注意事项

1、inject中以读取文件的方式传入自定义参数: datum.getMetaData().put(KEY, VALUE);  将文件中读取的参数加入。2、fetch中 传递参数:1、run方法中由QueueFeeder爬取队列维护爬取列表。2、根据自定义的线程数量启动FetcherThread线程。3、FetcherThread从队列中以原子方式获取爬取地址,爬取...

2012-06-02 11:51:04 80

原创 nutch1.4插件开发

参考了不少nutch插件开发的文章都不完整,经过多次调试研究才成功,下面将注意要点列出希望能对nutch应用开发爱好者提供帮助。 nutch开发环境搭建请参考 http://peigang.iteye.com/blog/1464854。本文提到的各项内容都是依据以上环境测试的。 一、插件程序结构以nutch中的parse-html解析html的插件为例介绍。parse-html...

2012-04-13 17:02:05 78

原创 nutch1.4 解析器 ParseSegment详解

org.apache.nutch.parse.ParseSegment 解析数据段,快速理解开发使用nutch的重要类。 map函数实现比较简单,读取Content类并解析。reduce也只是简单的将map计算完毕的返回。巧妙之处在job.setOutputFormat(ParseOutputFormat.class);中ParseOutputFormat对象将reduce...

2012-04-11 15:17:27 90

原创 nutch1.4 Injector 详解

org.apache.nutch.crawl.InjectorURL注入器对象,nutch抓取入口。代码如下: /** * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distri...

2012-03-29 18:04:51 117

原创 nutch1.4 ScoringFilter详解

org.apache.nutch.scoring.ScoringFilter实现类如下:  //空方法org.apache.nutch.scoring.link.LinkAnalysisScoringFilter.injectedScore(Text url, CrawlDatum datum)//空方法org.apache.nutch.scoring.opic.OPI...

2012-03-29 17:39:32 132

原创 nutch1.4 URLFilter详解

org.apache.nutch.net.URLFilter接口有如下实现类:  1、//匹配suffix, domain, hostorg.apache.nutch.urlfilter.domain.DomainURLFilter2、//程序代码结构实现同相同,不知道为什么一模一样,没仔细琢磨。org.apache.nutch.urlfilter.domain...

2012-03-29 17:16:29 128

原创 nutch1.4 URLNormalizers 详解

 org.apache.nutch.net.URLNormalizers  url过滤封装类,过滤器有3个实现类分别是: //格式化url将url字符小写转换一次,Perl5正则解析URL FILE。org.apache.nutch.net.urlnormalizer.basic.BasicURLNormalizer//空方法,不执行任何解析,直接返回url,注:应该是...

2012-03-29 15:56:26 124

原创 nutch1.4 crawl详解

 /** * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with * this work for additional information rega...

2012-03-29 11:16:48 89

原创 MyEclipse配置IvyDE

从以下地址下载eclipse,http://www.eclipse.org/downloads/启动后选择功能Help--Install new Software 选择下载即可,详细步骤参考http://ant.apache.org/ivy/ivyde/download.cgi

2012-03-28 14:16:48 144

原创 Eclipse开发nutch环境搭建

本文参考了:http://www.douban.com/note/193721760/ 博文(在此感谢博主),该文中提到的参考文章地址:http://zettadata.blogspot.com/2011/12/eclipsenutch.html或http://peigang.iteye.com/blog/1682107无法打开(原因你懂的)我想办法打开了,参考个文章后将自己的配置过程记录下来,以...

2012-03-27 20:13:17 125

MyEclipse8.5快速配置SVN

http://subclipse.tigris.org/servlets/ProjectDocumentList?folderID=2240下载SVN插件:site-1.6.10.zip解压后将其全部文件拷贝至:D:\Program Files\Genuitec\MyEclipse 8.5\dropins(MyEclipse的安装目录)重启MyEclipse即可出现SVN!...

2012-03-22 20:09:13 44

XML学习教程 XML标准

XML学习进阶1-- 什么是XML 1 1 为什么使用 XML? 3 2 什么是 XML? 3 3 数据的结构表示 4 4 XML 文档 4 5 数据是从表示和处理中分离出来的 7 6 使XML数据自描述 8 7 XML数据处理 9 8 开放式标准 10 9 从XML中受益 11 10 前景 12 XML学习进阶2--XML标准 14 XML标准 14 1 W3C 建议(Recommendations) 15 2 W3C Proposed Recommendations(W3C提出的建议) 16 3 W3C Working Drafts(工作草案) 16 4 W3C"Notes"(注释) 18 5 其它W3C Notes 18 6 在XML基础上建立的标准 18 XML学习进阶3--XML使用方案 21 1 XML使用内容 21 2 XML的使用方案 22 a) 数据自我描述:(Defination) 22 b) 数据分析:(Parser) 23 c) 数据显示:(Presentation) 24

2010-10-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除