2017年09月_FieldSoft-HelloClyde

原创 NekoHTML解析HTML为XML后TagName一直为大写的问题解决

问题：java使用NekoHTML解析HTML的时候发现NekoHTML总是把标签名转换成大写，导致之前写的XPath都用不了，虽然可以用脚本把之前的历史XPath都转换一遍，但是如果新来的运营不知道的话，还是可能会出现不必要的麻烦。分析：在网上一顿搜索，发现自己的blog里也有写，只是之前没有注意，NekoHTML提供了一些配置项，可以精确的配置NekoHTML的行为。与我们这个

2017-09-18 17:46:34 1003 1

转载 angularjs定时任务的设置与清除

人们似乎常常将AngularJS中的$timeOut() $interval()函数看做是一个内置的、无须在意的函数。但是，如果你忘记了$timeOut()$interval()的回调函数将会造成非常不好的影响，你可能会因此遇到代码莫名其妙的出现问题，或者无端抛出一个错误甚至是一遍一遍的重复对的你的服务器进行$http请求这些诡异的情形。管理好你的$timeOut/$interval定时器的小技

2017-09-09 22:48:30 497

原创 python 解码Unicode

问题：python中经常用到Unicode，比如json.dumps后的中文字符串，都会被写成\uXXXX。那这些unicode如何被解码回来呢？解决方案：pre_line.decode("unicode-escape")即可将\uXXXX等unicode解码。

2017-09-09 13:12:47 6560 1

原创抓取sogou新闻中的编码问题

问题：我们的新闻经常和百度搜狗等新闻进行对比，于是有个自动化评测的平台。但是我们在抓sogou的页面的时候发现其编码明明写了GBK，但是在python中却用GBK不能解码！解决方案：在python使用GB18030编码解码出来，然后再编码成UTF-8传给我们的ParserService做解析。response = urllib2.urlopen(req).read().decode

2017-09-08 13:50:13 440

原创 Jedis连接池满相关解决方案

问题：我们线上有个服务叫做LightParser，做一些Query改写等工作。在线上跑了很久没有问题，突然收到一个报警，说超时，延迟200ms，它平常只要20ms左右，马上上机器去看问题。发现连接池满了，jedis不能从连接池获取连接。再netstat一下，发现连接redis的连接远远没有连接池里这么多。连接池设置了200个，实际连接只有5~6个。分析：一开始是怀疑连接没有归还，把以前

2017-09-07 17:33:15 4486

原创 java 相对路径问题

今天在改写solr的时候想本地调试，解决发现有一段使用相对路径的代码不能获得这个文件，报IOException。检查了一下文件，的确在那个目录，user.dir也已经指定到那个目录了。可以通过new File("./").getAbsolutePath获取当前路径，也和user.dir想对应。百思不得其解，然后搜到了这篇文章：https://stackoverflow.com/questi

2017-09-06 15:18:24 1091

kydkong的博客

原创 NekoHTML解析HTML为XML后TagName一直为大写的问题解决

转载 angularjs定时任务的设置与清除

原创 python 解码Unicode

原创抓取sogou新闻中的编码问题

原创 Jedis连接池满相关解决方案

原创 java 相对路径问题

空空如也

空空如也

原创 NekoHTML解析HTML为XML后TagName一直为大写的问题解决

转载 angularjs定时任务的设置与清除

原创 python 解码Unicode

原创 抓取sogou新闻中的编码问题

原创 Jedis连接池满相关解决方案

原创 java 相对路径问题

空空如也

空空如也

原创抓取sogou新闻中的编码问题