还是上次的爬取遇到的问题。
这次主要是遇到的日期问题和正则匹配Url的问题。
日期问题主要解决的是xml模板中publishtime不能使用的问题。
正则匹配则是解决获取正确的url的问题。
1.日期问题
2.正则匹配问题
3.json文本处理问题
目录
1.日期问题
a.内部链接获取日期问题
因为莫名的原因,模板中的publishtime无法通过正常的xml模板获取,所以需要另建一个新的标签名。
这里我就使用的是<date></date>
在模板中配置好jsonpath路径
-个例子:
<date type="html" >
<![CDATA[//div/div/div[2]/span[1]/text() ]]>
</date>
然后在processArticle中获取date
这里的date为时间戳形式。
这里就需要将时间戳转换为Date类型
因为articlesetPublishtime是需要Date类型的。
举个例子:
if (article.getOtherProperties() != null && article.getOtherProperties().containsKey("date")) {
String date = article.getProperty("date");
SimpleDateFormat formatter = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");
long d = Long.parseLong(date);
try {
date = forma