xml
MSK_OS
只是一只想提升自己的程序猿
展开
-
新华网分享页采集方法
1.第一次做的时候: if (url.matches(regxhp)) { List<String> time1 = getElementAgainstXpath(s, "//div"); time = listToString(time1); String regtime = "\\d{4}-\\d{2}-\\d{2} \\d{2}:\\d{2}:\\d{2}"; List<Strin原创 2020-05-24 15:28:39 · 380 阅读 · 0 评论 -
爬虫心得(九)
这次是遇到了POST爬虫问题所以,这次需要解决POST的相关问题1.POST和GET的区别a.post请求的参数是不会留在浏览器中的,所以post请求比get请求要更加地安全b.post的参数是不会在Url中体现出来的,所以更加安全c.另一个区别可能就是post请求的长度没有限制的,get请求是在Url后添加的,因为Url是有长度限制的,所以get请求是有长度限制的d.其他...原创 2019-08-05 18:50:05 · 147 阅读 · 0 评论 -
常用链接的文本xpath路径
http://rmfp.people.com.cn/n1/2019/0706/c406725-31217756.htmltext //div[@class='box_con']https://wap.peopleapp.com/article/rmh5377863/rmh5377863htmltext //div[@class='article']http://www.x...原创 2019-07-25 21:59:44 · 302 阅读 · 0 评论 -
爬虫心得(八)
list判断为空的方法目录list判断为空的方法不单单是判断 list==null还有判断 list.isEmpty是否为true List<String> contents = getElementAgainstXpath(content, " //div[@class='cnt_bd']/p"); if (contents == nul...原创 2019-07-25 21:38:34 · 143 阅读 · 0 评论 -
爬虫心得目录
爬虫心得(一)readme.txt的配置。app.pro调度文件的配置pom.txt文件的配置爬虫心得(二)抓包工具fiddler的使用postman使用内容json格式化爬虫心得(三)2种模板的作用app模板的配置template.xml的配置爬虫心得(四)RequestDetail函数和ProcessArticle函数的作用处理文章中出...原创 2019-07-21 10:07:39 · 110 阅读 · 0 评论 -
爬虫心得(七)
返回值为html文本处理问题这里主要是解决返回值为html的文本,该如何处理的问题。在java中解析html就需要使用jsuopjsoup教程:https://www.cnblogs.com/zhangyinhua/p/8037599.html举个例子: org.jsoup.nodes.Document doc = Jsoup.parse(cret); ...原创 2019-07-21 10:00:23 · 160 阅读 · 0 评论 -
爬虫心得(六)
还是上次的爬取遇到的问题。这次主要是遇到的日期问题和正则匹配Url的问题。日期问题主要解决的是xml模板中publishtime不能使用的问题。正则匹配则是解决获取正确的url的问题。1.日期问题2.正则匹配问题3.json文本处理问题目录1.日期问题2.正则匹配问题3.json文本处理问题1.日期问题a.内部链接获取日期问题b.外部链接获取日期...原创 2019-07-20 10:25:39 · 163 阅读 · 0 评论 -
爬虫心得(五)
此次爬虫,遇到了一个新的问题.就是再爬取新闻链接的时候,出现了外部链接,比如会出现微信文章,央视网这类的外部链接.所以,这次就记录一下,这些外部链接的处理方法.1.普通处理在爬虫心得(四)里面已经解释了RequestDetail和ProcessArticle两个函数的意义所以,ProcessArticle函数的第一个参数即为html源码,外部链接的html源码也会记录在此....原创 2019-07-06 01:52:44 · 309 阅读 · 0 评论 -
爬虫心得(四)
这次采集正好赶上我的毕业,所以,晚了三天才看到邮箱里面的任务,这次处理很顺利。但是,也是自以为很顺利,结果还是经历了一些困难。现在就列一下所遇到的问题目录1.RequestDetail函数和ProcessArticle函数的作用2.处理文章中出现的img和video标签3.注意1.RequestDetail函数和ProcessArticle函数的作用RequestD...原创 2019-07-06 01:36:59 · 276 阅读 · 0 评论 -
爬虫心得(三)
说完以上这些,就到了修改xml模板的环节了。目录一 2种模板的作用二 app模板的配置三:template.xml的配置xml模板的作用一 2种模板的作用1.app.xml 是用来配置采集的频道的信息。内容包括频道名称,请求链接,请求方式,请求头等。2.对返回的新闻列表和返回的详情页的处理。TemplateParser是模板解析器,会解析...原创 2019-06-11 23:38:56 · 277 阅读 · 0 评论 -
爬虫学习心得(二)
前一部分是对一些基础文件的配置,这一部分是对抓包工具的使用。目录抓包工具fiddler的使用postman使用内容json格式化抓包工具fiddler的使用抓包工具使用的是fiddler,移动端则是使用了逍遥安卓模拟器。这里看了很多教程,但是开始时,想使用自己的手机进行抓包,可是总是获取不到https连接,所以还是改用了模拟器。fiddler抓包教程:https:/...原创 2019-06-11 23:02:40 · 1659 阅读 · 0 评论 -
爬虫学习心得(一)
本文主要说明pom readme app.proprity文件的配置。原创 2019-06-11 22:19:18 · 4042 阅读 · 0 评论