自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (2)
  • 收藏
  • 关注

原创 Scrapy 通过代理(Proxy)爬取外部网站

Scrapy 通过代理(Proxy)爬取外部网站通常我们不需要特殊处理就能直接的访问WWW。但当你处于内部网络通过代理访问外部的时候,或者一些特殊的情况下,你会需要这个技能。默认你已经会用Scrapy制作蜘蛛了。你可以参考我的另一个介绍页面,或者其他更详尽的教程。最简单直接的办法就是在蜘蛛的开头设置系统环境变量像这样:import os# 设置相应的代理用户名密码,主机和端口号os.enviro

2017-12-20 13:58:56 8314 1

原创 用Scrapy爬取Domain认证的内网数据比如SharePoint

用Scrapy爬取Domain认证的内网数据只要是浏览器里面能够访问的东西,理论上都可以被爬虫爬取。有了这个信念,基本上所有问题就解决一半啦,笑~公司内部网络通常都是由域控制器统一做安全登录认证,这对于window系的公司尤为常见。通常爬取内网Domain服务器认证的内部网站,基本都会返回401错误,这就是告诉我们没有通过服务器的认证检验。 那么怎么做呢?安装requests-ntlm认证组件你需

2017-12-18 17:08:50 3819

原创 用Python 的 Scrapy 爬取 网站

用Python 的 Scrapy 爬取网站说到制作蜘蛛爬取网站听起来挺简单的,其实深究起来是个蛮综合的应用,有不少技能点需要点亮。比如:基本的Request/ResponseHTML,CSS,XPath,JavaScript等前端技能点 即便你有这些技能点加成,不管你是Newbee还是老鸟,如果你坚持不懈的要制造自己的轮子,很多坑估计你死多少遍也填不平。这时候我适时的推荐你用Scrapy这个框

2017-12-14 16:58:21 1574

原创 Oracle 数据库中的内容加密与解密 dbms_crypto

Oracle 数据库中的内容加密与解密说起来Oracle中有很多涉及加密解密的东西,今天说的这个是dbms_crypto。有没有遇到过这样的应用场景,需要将一些敏感数据字段脱敏之后发送给下游。之后下游处理完其他数据之后会携带这个脱敏字段再发回给你,你再用这些敏感信息还原出原始的值匹配更新原来的数据。最近我就遇到了。找了一下,Oracle还真有类似的包:dbms_crypto,使用这个包需要管理员登录

2017-12-12 16:57:25 11390

原创 配置 Winows Domain LDAP 认证 和 Exchange 邮件服务

一般的我们都在windows domain下工作,很多时候你需要结合windows domain 的认证来配置一些第三方的应用。这样可以统一用户登录系统。比如 SVN以及其他的一些系统。这时候你需要知道些基本的domain的信息,问题是:HOW?你可以问Domain管理员,当然。这些信息其实你是有办法知道的:Domain 相关信息, Windows Command下面输

2015-03-16 14:11:57 1955

原创 grep TAB

1. 只grep TABgrep -P [\t]2. grep TAB 和 Spacegrep [[:space:]]

2015-03-05 11:00:09 655

原创 用Java 处理 XML 数据

看起来这是个常规性的动作。不知道什么时候你就需要用JAVA处理一下XML。虽说现在用XML作为媒体进行数据交换不是那么有效率(你可以试着Google “为啥不用XML” 之类的了解了解),不过鉴于很多古板的系统只能支持长胡子的技术实现,所以这方面也要照顾一下退休人士。了解背景会让你聊天的时候显得牛一些。Java原生内置的处理XML的技术基本有这么几种:DOM,SAX,Stax

2014-01-13 10:34:03 5856 2

原创 Oracle 的数据批量读取

有这么一个大表假设数亿条记录,纯数据文本百Gb以上,批量读取的话咋整?SQLLoader,算是一个选择吧。嗯,开并行,数据表本身也许已经partition过了。可是如果自己批量unload数据应该怎么做呢?多线程并行是个好主意,但是怎么并行呢?如果你在想什么数字主键均分的想法,那你也许不会有好的结果。原因,主键的值域范围不一定是均匀分布的,这会造成你某些工作线程很忙,有些却草草结束了。深层次的

2014-01-07 10:53:10 2874

原创 Hive console log output 控制台输出日志

没啥说的记录一下:hive -hiveconf hive.root.logger=DEBUG,console

2014-01-06 17:28:19 6485

原创 Data compression on Hbase will make your mapreduce job fly

如果你需要在HBase的数据上做MapReduce任务,记得打开压缩选项。IO speed is always performance bottleneck in any case. So focus on IO performance generally is best practice for performance tuning.Data compression

2014-01-06 17:25:38 632

原创 Expands disk volume on Linux 扩展虚拟的逻辑磁盘空间

1. 先看看有多少物理磁盘供你使用sudo fdisk -l一般会得到下面的信息:Disk /dev/sdb: 107.4 GB, 107374182400 bytes...Disk /dev/sdc: 107.4 GB, 107374182400 bytes...Disk /dev/sdd: 107.4 GB, 107374182400 bytes2. 初始化这些磁盘

2014-01-06 17:19:23 665

原创 Hadoop cannot find namenode pid file when shutdown

By default settings Hadoop use /tmp/ folder to track NameNode and JobTracker process id alive. But /tmp folder is cleanup once a week. So after some time, you will get error when you try to shutdown H

2014-01-06 16:24:25 1482

原创 用Mybatis JDBC访问 Oracle的XMLType数据类型

你没看错,我也没有发神经。这就是我要做的,用XML作为JAVA和数据库交流的载体。粗想一下是有些些反人类,不过如果能一次性取出多条多种数据集,也算是个不错的选择吧。本篇不深究是否值得这么去折腾,蛋,如果有一天你必须去面对这个无情的事实的时候,可以用下面的法子试试看。以下用Mybatis实现的,其实直接JDBC的访问也是一样的,本例只不过借用Mybatis搭好的架子而已。先简单说说你

2012-08-20 15:36:18 8797 1

原创 如何修改Java的Play框架默认的HTTP端口号

Play,有了这个或许Java也能在Web前端的开发挺起头了。最近看了看,的确简洁方便。导入Eclipse也很方便,用自带的命令eclipsify就完成项目的生成,之后在Eclipse中导入即可。但,不能Debug的WebProject咋说都是交待不了的。Play2.0之后不会生成eclipse的目录了,咋整?先看基本手法:1。导入项目2。Eclipse中设置:Prefer

2012-08-09 15:14:40 5758

原创 就不用Spring,Struts2挂载MyBatis

Hibernate,为了DAO的ORMapping,生生把SQL的优良特性给腰斩完蛋了。比起来更喜欢MyBatis,不失SQL的灵活。但,MyBatis怎么挂载到Struts2中呢?搜遍大江南北都是利用Spring——你们还有没有点新鲜玩意儿?说白了,就是我这个小小的项目用Sping不是杀鸡用牛刀吗,而且Sping的复杂度让人望而却步。研究了一下发现不过是利用Sping的DI加载MyBat

2011-06-07 15:15:00 2462 2

原创 乍一看好像是项目撵走了大家伙:(

自从去年9月份以来,大家都处在一种十分紧张的工作状态当中。不得不说Canon这个项目的确是太累了。平均每天工作15、6个小时,连续几个月下来谁都会受不了的。忘不了最苦的时候有人居然近一周的时间没有回过家,天天住在公司,吃、喝、睡。元旦的五天假期只回家过一天。这样的强度恐怕大家走都是有理由的。还好大家都很有职业道德,项目完成以后才都纷纷离职。部门七零八落的,大家各自分飞。从LP、ZHY、到WF、HK

2005-07-15 16:26:00 1215

原创 终于又回来了。

曾经几次连接不上csdn的blog,这次终于上来了。最近不忙了。打算写点东西,回顾一下自己了。

2005-07-15 15:54:00 1080

原创 40种网页常用小技巧(javascript)

40种网页常用小技巧(javascript)http://www.pconline.com.cn/pcjob/other/design/others/0410/471599.html1. oncontextmenu="window.event.returnValue=false" 将彻底屏蔽鼠标右键no 可用于Table2. 取消选取、防止复制3. onpaste="retu

2004-10-23 10:59:00 905

原创 如何在Struts中进行分页处理

如何在Struts中进行分页处理最近做Struts项目涉及分页处理。下面就结合项目谈谈如何在Struts中进行分页处理。根据需要你可以选择一次读出所有数据然后再分页,以后每次分页不再读数据。另一种方法你可以每次只读出需要显示的数据,以后每次分页分别在读其他数据。两种方法本文都将简单介绍。先介绍第一种,数据一次读入。适合数据量小的场合,首次装载页面会比较慢。项目片断简介:项目中需要分

2004-09-20 14:15:00 1974 1

原创 个人理解:Struts中的Jsp解释顺序

正确理解Jsp页面中的解释顺序会帮助我们写出比较好的Struts页面代码。也能够更加灵活的运用Struts。Jsp中的几种代码:A.HTML代码如: B.Script代码如:      if(document.BBS0090.windowFLG0091.value == "NEWRECORD2"){    window.opener.document.BBS0090.s

2004-09-15 11:50:00 1532

原创 如何在Jsp页面中导入JAVA类。

BBS0010AF BBS0010 = (BBS0010AF) session.getAttribute("BBS0010");%>

2004-09-15 11:36:00 54291 5

BetterSP2.exe

绿色健康版, 调整XP系统的最大网络连接数。

2010-03-08

硝烟中的Scrum和XP.pdf

硝烟中的Scrum和XP.pdf Scrum 的实践。

2010-03-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除