Wedmagic 网络爬虫
网页链接:http://webmagic.io/docs/zh/
上面是链接 让你知道Wedmagic是什么。你还知道http协议和xpath是什么,怎么用,里面有小案例,可以试一试。
http协议
http是一个简单的请求-响应协议,它通常运行在TCP之上。它指定了客户端可能发送给服务器什么样的消息以及得到什么样的响应。请求和响应消息的头以ASCII码形式给出;而消息内容则具有一个类似MIME的格式。这个简单模型是早期Web成功的有功之臣,因为它使得开发和部署是那么的直截了当。
Xpath语言
XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。
选取节点 XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。 [1]
下面列出了最有用的路径表达式:
表达式
描述
nodename
选取此节点的所有子节点。
/
从根节点选取。
//
从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。
.
选取当前节点。
…
选取当前节点的父节点。
@
选取属性。
Wedmagic框架
本次实验需要下载webmagic.jar包.
搭建 webmagic 开发环境
(1)新建一个 java 项目,maven项目类型都行。(idea 自带的maven)
(2)导入如图 4 所示的 jar 包。
二.编写爬虫程序
新建名为 City58 的类并实现 PageProcessor 接口。
public class City58 implements PageProcessor
具体内容如下:
(1)设置全局常量。
private Site site = Site.me().setRetryTimes(3).setSleepTime(1000); public static String split = "@@@@@"; private static String startPageString = "job/?utm_source=market"; private static String pageString = "job/pn";
(2)编写写入文件的方法。
public static void writeStringsFile(String newstring, String targetFile) throws IOException {
File file = new File(targetFile);
if(!file.exists()) {
file.createNewFile();
}//追加数据到文件中
FileOutputStream fop = new FileOutputStream(file,true);
fop.write(newstring.getBytes());
fop.flush(); fop.close(); }
(3)实现 getSite 和 process 方法
public static void writeStringsFile(String newstring, String targetFile) throws IOException {
File file = new File(targetFile);
if (!file.exists()) {
file.createNewFile();
}
//追加数据到文件中
FileOutputStream fop = new FileOutputStream(file,true);
fop.write(newstring.getBytes());
fop.flush();
fop.close();
}
@Override
public Site getSite() {
site.addHeader("User-Agent","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36");
site.addHeader("Upgrade-Insecure-Requests", "1");
site.addHeader("Cache-Control", "max-age=0");
Random random = new Random();
site.addHeader("X-Forwarded-For", random.nextInt(10)+"."+random.nextInt(10)+"."+random.nextInt(10)+"."+random.nextInt(10));
return site;
}
其中 X-Forwarded-For 的作用是伪造 ip,其他头信息都为了模仿浏览器.
@Override
public void process(Page page) {
//获取到当前抓起页面的地址
String url = page.getUrl().toString();
if(url.contains(startPageString)||url.contains(pageString)){
String[] urls = url.split("\\?");
if(urls[0].contains("/pn")){
String pnX = urls[0].substring(22,urls[0].length()-1);
int pageN = Integer.valueOf(pnX.substring(2));
if(pageN<70){
String nextPage = urls[0].substring(0,22)+"pn"+(pageN+1)+"/?"+urls
[1];
//添加列表页面到 target
page.addTargetRequest(nextPage);
}
}else{
String url0 = urls[0];
String nextPage = url0+"pn2/?"+urls[1];
//添加列表页面到 target
page.addTargetRequest(nextPage);
}
List<String> links = page.getHtml().xpath("//ul[@id='list_con']//li").all();
for(String link : links){
Html html = new Html(link);
String a = html.xpath("//a").get();
Pattern pattern = Pattern.compile("<a[^>]*href=(\"([^\"]*)\"|\'([^\']*)\'|([^\\s>]*))[^>]*>(.*?)</a>");
Matcher matcher = pattern.matcher(a);
String href = null;
if (matcher.find()) {
href = matcher.group(1);
System.out.println(href);
Request request = new Request(href.substring(1,href.length()-1));
page.addTargetRequest(request);
}
}
}else{
//爬取详细页面数据
//工作标题
String job_title = page.getHtml().xpath("//div[@class='pos_base_info']//span[@class='pos_title']").get();
//工资
String money = page.getHtml().xpath("//div[@class='pos_base_info']//span[@class='pos_salary']").get();
//工作名
String job_name = page.getHtml().xpath("//div[@class='item_con pos_info']//span[@class='pos_name']").get();
//招聘人数
String num = page.getHtml().xpath("//div[@class='pos_base_condition']//span[@class='item_condition pad_left_none']").get();
//所需学历
String educat = page.getHtml().xpath("//div[@class='pos_base_condition']//span[@class='item_condition']").get();
//工作经验
String worktime = page.getHtml().xpath("//div[@class='pos_base_condition']//span[@class='item_condition border_right_None']").get();
//写入
StringBuilder sb = new StringBuilder();
sb.append(job_title + split);
sb.append(job_name + split);
sb.append(money + split);
sb.append(num + split);
sb.append(educat + split);
sb.append(worktime);
try {
City58.writeStringsFile(sb.toString()+"\n","C:\\Users\\Desktop\\er\\8job.txt");
} catch (IOException e) {
e.printStackTrace();
}
}
}
public static void main(String[] args) {
String startUrl = "https://wh.58.com/job/?utm_source=market&spm=u-2d2yxv86y3v43nkddh1.BDPCPZ_BT&PGTID=0d100000-0009-e549-5197-28b90fea9482&ClickID=7&key=";
Spider spi = Spider.create(new City58()).addUrl(startUrl).thread(300);
spi.run();
}
}
实验结果 run
因为我们访问多次会导致对方网址拒绝你的请求。但是你需要的代码已经打印下来了。
打印过程中遇到的错误:没有log4j日志文件。
这里需要在src同级创建并设置log4j.properties
设置
log4j.rootLogger = debug,stdout,D,E
### 输出信息到控制抬 ###
log4j.appender.stdout = org.apache.log4j.ConsoleAppender
log4j.appender.stdout.Target = System.out
log4j.appender.stdout.layout = org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern = [%-5p] %d{yyyy-MM-dd HH:mm:ss,SSS} method:%l%n%m%n
### 输出DEBUG 级别以上的日志到=E://logs/error.log ###
log4j.appender.D = org.apache.log4j.DailyRollingFileAppender
log4j.appender.D.File = E://logs/log.log
log4j.appender.D.Append = true
log4j.appender.D.Threshold = DEBUG
log4j.appender.D.layout = org.apache.log4j.PatternLayout
log4j.appender.D.layout.ConversionPattern = %-d{yyyy-MM-dd HH:mm:ss} [ %t:%r ] - [ %p ] %m%n
### 输出ERROR 级别以上的日志到=E://logs/error.log ###
log4j.appender.E = org.apache.log4j.DailyRollingFileAppender
log4j.appender.E.File =E://logs/error.log
log4j.appender.E.Append = true
log4j.appender.E.Threshold = ERROR
log4j.appender.E.layout = org.apache.log4j.PatternLayout
log4j.appender.E.layout.ConversionPattern = %-d{yyyy-MM-dd HH:mm:ss} [ %t:%r ] - [ %p ] %m%n
写好在run 就能在控制台查看你的打印信息了。
如果在学习途中,遇到了什么错误,请指出,我很高兴解决问题。谢谢