1、前言
用来批量采集网页,论坛等的内容,直接保存到数据库或发布到网络的一种信息化工具。可以根据用户设定的规则自动采集原网页,获取格式网页中需要的内容,也可以对数据进行处理。
2、技术
1、邮件发送
2、java爬虫采集美女图片
3、HttpClient代理ip刷博客访问次数
3、实现
Document doc = Jsoup.parse(webPageContent);
Elements result44 = doc.getElementsByClass("cell");
for (Element result : result44)
{
Elements links2 = result.getElementsByTag("a");
String url22 = links2.attr("href");
String url23 = "http://www.juemei.com/" + url22; //跳转页面
Elements links23 = result.getElementsByTag("img"); //封页图
String url223 = links23.attr("src");
if(url223 == ""){
url223 = links23.attr("_src");
}
Elements links24 = result.getElementsByTag("strong"); //标题
String links244 = links24.toString();
links244 = links244.substring(8, links244.lastIndexOf("<"));
Elements links25 = result.getElementsByTag("p"); //时间
String links245 = links25.toString();
links245 = links245.substring(9, links245.lastIndexOf("<"));
}
4、截图留恋
5、下载地址
http://pan.baidu.com/s/1nvnYjUx 链接密码请加QQ群494808400并向群主索取。
全CSDN的丰(好)色(se)博客,这里有书本看不到的Java技术,电影院禁播的电影,欢迎关注QQ群494808400