1、异常如下:
Caused by: java.lang.IllegalArgumentException: Illegal character in query at index 59: http://so.csdn.net/so/search/s.do?p=1&ref=toolbar&q=xxx xxx&ref=toolbar
at java.net.URI.create(Unknown Source) ~[na:1.8.0_40]
at org.apache.http.client.methods.HttpGet.<init>(HttpGet.java:69) ~[httpclient-4.5.2.jar!/:4.5.2]
at com.xxx.srd.tcldp.service.CsdnProcessorService.getResponse(CsdnProcessorService.java:213) ~[classes!/:0.0.1-SNAPSHOT]
at com.xxx.srd.tcldp.service.CsdnProcessorService.save(CsdnProcessorService.java:75) ~[classes!/:0.0.1-SNAPSHOT]
at com.xxx.srd.tcldp.schedule.ScheduleSpiderGithub.githubScheduleTask(ScheduleSpiderGithub.java:88) ~[classes!/:0.0.1-SNAPSHOT]
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) ~[na:1.8.0_40]
at sun.reflect.NativeMethodAccessorImpl.invoke(Unknown Source) ~[na:1.8.0_40]
at sun.reflect.DelegatingMethodAccessorImpl.invoke(Unknown Source) ~[na:1.8.0_40]
at java.lang.reflect.Method.invoke(Unknown Source) ~[na:1.8.0_40]
at org.springframework.util.MethodInvoker.invoke(MethodInvoker.java:269) ~[spring-core-4.3.6.RELEASE.jar!/:4.3.6.RELEASE]
at org.springframework.scheduling.quartz.MethodInvokingJobDetailFactoryBean$MethodInvokingJob.executeInternal(MethodInvokingJobDetailFactoryBean.java:257) ~[spring-context-support-4.3.6.RELEASE.jar!/:4.3.6.RELEASE]
... 3 common frames omitted
Caused by: java.net.URISyntaxException: Illegal character in query at index 59: http://so.csdn.net/so/search/s.do?p=1&ref=toolbar&q=xxx xxx&ref=toolbar
at java.net.URI$Parser.fail(Unknown Source) ~[na:1.8.0_40]
at java.net.URI$Parser.checkChars(Unknown Source) ~[na:1.8.0_40]
at java.net.URI$Parser.parseHierarchical(Unknown Source) ~[na:1.8.0_40]
at java.net.URI$Parser.parse(Unknown Source) ~[na:1.8.0_40]
at java.net.URI.<init>(Unknown Source) ~[na:1.8.0_40]
... 14 common frames omitted
2、异常原因
如果直接在浏览器中输入带特殊字符的url是没有问题的,但是,如果通过httpclient这个客户端来请求带特殊字符的url时,例如空格等,这个时候,就会出现上面的异常,需要对这些特殊字符进行转义。
3、解决方案
URL中的特殊字符
有些符号在URL中是不能直接传递的,如果要在URL中传递这些特殊符号,那么就要使用他们的编码了。编码的格式为:%加字符的ASCII码,即一个百分号%,后面跟对应字符的ASCII(16进制)码值。例如 空格的编码值是"%20"。
下表中列出了一些URL特殊符号及编码
+ | URL 中+号表示空格 | %2B |
空格 | URL中的空格可以用+号或者编码 | %20 |
/ | 分隔目录和子目录 | %2F |
? | 分隔实际的URL和参数 | %3F |
% | 指定特殊字符 | %25 |
# | 表示书签 | %23 |
& | URL 中指定的参数间的分隔符 | %26 |
= | URL 中指定参数的值 | %3D |
{ | 左大括号 | %7B |
} | 右大括号 | %7D |
" | 引号 | %22 |
替换完之后,再通过httpclient发送请求就没有问题了。