- 博客(6)
- 收藏
- 关注
原创 NekoHTML解析HTML为XML后TagName一直为大写的问题解决
问题:java使用NekoHTML解析HTML的时候发现NekoHTML总是把标签名转换成大写,导致之前写的XPath都用不了,虽然可以用脚本把之前的历史XPath都转换一遍,但是如果新来的运营不知道的话,还是可能会出现不必要的麻烦。分析:在网上一顿搜索,发现自己的blog里也有写,只是之前没有注意,NekoHTML提供了一些配置项,可以精确的配置NekoHTML的行为。与我们这个
2017-09-18 17:46:34 1003 1
转载 angularjs定时任务的设置与清除
人们似乎常常将AngularJS中的$timeOut() $interval()函数看做是一个内置的、无须在意的函数。但是,如果你忘记了$timeOut()$interval()的回调函数将会造成非常不好的影响,你可能会因此遇到代码莫名其妙的出现问题,或者无端抛出一个错误甚至是一遍一遍的重复对的你的服务器进行$http请求这些诡异的情形。管理好你的$timeOut/$interval定时器的小技
2017-09-09 22:48:30 497
原创 python 解码Unicode
问题:python中经常用到Unicode,比如json.dumps后的中文字符串,都会被写成\uXXXX。那这些unicode如何被解码回来呢?解决方案:pre_line.decode("unicode-escape")即可将\uXXXX等unicode解码。
2017-09-09 13:12:47 6560 1
原创 抓取sogou新闻中的编码问题
问题:我们的新闻经常和百度搜狗等新闻进行对比,于是有个自动化评测的平台。但是我们在抓sogou的页面的时候发现其编码明明写了GBK,但是在python中却用GBK不能解码!解决方案:在python使用GB18030编码解码出来,然后再编码成UTF-8传给我们的ParserService做解析。response = urllib2.urlopen(req).read().decode
2017-09-08 13:50:13 440
原创 Jedis连接池满相关解决方案
问题:我们线上有个服务叫做LightParser,做一些Query改写等工作。在线上跑了很久没有问题,突然收到一个报警,说超时,延迟200ms,它平常只要20ms左右,马上上机器去看问题。发现连接池满了,jedis不能从连接池获取连接。再netstat一下,发现连接redis的连接远远没有连接池里这么多。连接池设置了200个,实际连接只有5~6个。分析:一开始是怀疑连接没有归还,把以前
2017-09-07 17:33:15 4486
原创 java 相对路径问题
今天在改写solr的时候想本地调试,解决发现有一段使用相对路径的代码不能获得这个文件,报IOException。检查了一下文件,的确在那个目录,user.dir也已经指定到那个目录了。可以通过new File("./").getAbsolutePath获取当前路径,也和user.dir想对应。百思不得其解,然后搜到了这篇文章:https://stackoverflow.com/questi
2017-09-06 15:18:24 1091
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人