这几天在研究爬虫,想在抓回来的文本中找出中文来,就捎带着研究了一下正则。没想到一如侯门深似海。
关于正则,有个很出名的笑话:有个程序员遇到了问题,他决定要用正则表达式去解决。现在他有了两个问题。(实用正则的时候肯定会有问题,而原来的问题依然还在)
还有这样一个笑话:给一个程序员正则表达式,他会拿着去匹配出字符;教给他如何实用正则表达式,你会得到一个浑身是问题的人。
(原谅我这生硬的翻译。)
通过so.com查询关键字,会得到一个utf-8 编码的字符串,当查询科技的时候:
suggest_so({"query":"科技","result":[{"word":"科技美学"},{"word":"科技苑"},{"word":"科技小制作大全"},{"word":"科技管理研究"},{"word":"科技网"},{"word":"科技少女喵","obdata":"{\"t\":\"video\"}"},{"word":"科技部"},{"word":"科技日报"},{"word":"科技超能王","obdata":"{\"mt\":\"novel_free\",\"md\":[\"http:\/\/p3.qhimg.com\/dr\/80_100_100\/t0155de86b15e45143c.jpg\",\"\u79d1\u6280\u8d85