Node.js爬虫实验项目（三）基础代码与更新

最新推荐文章于 2023-06-10 19:58:25 发布

童安

最新推荐文章于 2023-06-10 19:58:25 发布

阅读量221

点赞数

文章标签： javascript

本文链接：https://blog.csdn.net/Emma_nevergiveup/article/details/105931496

版权

实现代码

1.分析种子页面。
2.分析出种子页面里的所有新闻链接。
3.爬取所有新闻链接的内容。
4.分析新闻页面内容。
5.将结构化数据保存到本地文件。

1.引入必须的模块，定义要访问的网站

var fs = require('fs');
var myRequest = require('request')
var myCheerio = require('cheerio')
var myIconv = require('iconv-lite')
require('data-utils');

var source_name = "中国新闻网";
var domain = 'http://www.chinanews.com/';
var myEncoding = "utf-8";
var seedURL = 'http://www.chinanews.com/';

2.定义新闻页面里具体的元素的读取方式

var seedURL_format = "$('a')";
var keywords_format = " $('meta[name=\"keywords\"]').eq(0).attr(\"content\")";
var title_format = "$('title').text()";
var date_format = "$('#pubtime_baidu').text()";
var author_format = "$('#editor_baidu').text()";
var content_format = "$('.left_zw').text()";
var desc_format = " $('meta[name=\"description\"]').eq(0).attr(\"content\")";
var source_format = "$('#source_baidu').text()";
var url_reg = /\/(\d{4})\/(\d{2})-(\d{2})\/(\d{7}).shtml/;
var regExp = /((\d{4}|\d{2})(\-|\/|\.)\d{1,2}\3\d{1,2})|(\d{4}年\d{1,2}月\d{1,2}日)/

3.构造一个模仿浏览器的request（防止被网站屏蔽）

var headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.65 Safari/537.36'
}

//request模块异步fetch url
function request(url, callback) {
    var options = {
        url: url,
        encoding: null,
        //proxy: 'http://x.x.x.x:8080',
        headers: headers,
        timeout: 10000 //
    }
    myRequest(options, callback)
}

4.读取种子页面，解析出种子页面里的链接

request(seedURL, function(err, res, body) { //读取种子页面
   // try {
    //用iconv转换编码
    var html = myIconv.decode(body, myEncoding);
  //  console.log(html);
    var $ = myCheerio.load(html, { decodeEntities: true });
  //   } catch (e) { console.log('读种子页面并转码出错：' + e) };

    var seedurl_news;

    try {
        seedurl_news = eval(seedURL_format);
        //console.log(seedurl_news);
    } catch (e) { console.log('url列表所处的html块识别出错：' + e)};

5.遍历链接，开始爬取

seedurl_news.each(function(i, e) { //遍历种子页面里所有的a链接
        var myURL = "";
        try {
            //得到具体新闻url
            var href = "";
            href = $(e).attr("href");
            if (href.toLowerCase().indexOf('http://') >= 0) myURL = href; //http://开头的
            else if (href.startsWith('//')) myURL = 'http:' + href; 开头的
            else myURL = seedURL.substr(0, seedURL.lastIndexOf('/') + 1) + href; //其他

        } catch (e) { console.log('识别种子页面中的新闻链接出错：' + e) }

        if (!url_reg.test(myURL)) return; //检验是否符合新闻url的正则表达式
        //console.log(myURL);
        newsGet(myURL); //读取新闻页面
    });
});

6.读取具体的新闻页面，构造一个空的fetch对象用于存储数据

function newsGet(myURL) { //读取新闻页面
    request(myURL, function(err, res, body) { //读取新闻页面
        //try {
        if(err){
            console.log("访问失败");
            return;
        }
        var html_news = myIconv.decode(body, myEncoding); //用iconv转换编码
        //console.log(html_news);
        //准备用cheerio解析html_news
        var $ = myCheerio.load(html_news, { decodeEntities: true });
        myhtml = html_news;
        //} catch (e) {    console.log('读新闻页面并转码出错：' + e);};

        console.log("转码读取成功:" + myURL);
        
        var fetch = {};
        fetch.title = "";
        fetch.content = "";
        fetch.publish_date = (new Date()).toFormat("YYYY-MM-DD");
        //fetch.html = myhtml;
        fetch.url = myURL;
        fetch.source_name = source_name;
        fetch.source_encoding = myEncoding; //编码
        fetch.crawltime = new Date();

7.读取新闻页面中的元素并保存到fetch对象里,将fetch对象保存在文件中

if (keywords_format == "") fetch.keywords = source_name; // eval(keywords_format);  //没有关键词就用sourcename
        else fetch.keywords = eval(keywords_format);

        if (title_format == "") fetch.title = ""
        else fetch.title = eval(title_format); //标题

        if (date_format != "") fetch.publish_date = eval(date_format); //刊登日期   
        console.log('date: ' + fetch.publish_date);
        fetch.publish_date = regExp.exec(fetch.publish_date)[0];
        fetch.publish_date = fetch.publish_date.replace('年', '-')
        fetch.publish_date = fetch.publish_date.replace('月', '-')
        fetch.publish_date = fetch.publish_date.replace('日', '')
        fetch.publish_date = new Date(fetch.publish_date).toFormat("YYYY-MM-DD");

        if (author_format == "") fetch.author = source_name; //eval(author_format);  //作者
        else fetch.author = eval(author_format);

        if (content_format == "") fetch.content = "";
        else fetch.content = eval(content_format).replace("\r\n" + fetch.author, ""); //内容

        if (source_format == "") fetch.source = fetch.source_name;
        else fetch.source = eval(source_format).replace("\r\n", ""); //来源

        if (desc_format == "") fetch.desc = fetch.title;
        else fetch.desc = eval(desc_format).replace("\r\n", ""); //摘要    

        var filename = source_name + "_" + (new Date()).toFormat("YYYY-MM-DD") +
            "_" + myURL.substr(myURL.lastIndexOf('/') + 1) + ".json";
        //存储json
        fs.writeFileSync(filename, JSON.stringify(fetch));
    });
}

实验结果：

在这里插入图片描述

更新，调用mysql

在引用中加上一行

var mysql = require('./mysql.js')

在 getTexts 函数中进行修改，将信息存入数据库中

var fetchAddSql = 'INSERT INTO fetches(url,source_name,source_encoding,title,' +
    'keywords,auther,publish_date,crawtime,content) VALUES(?,?,?,?,?,?,?,?,?)';
    
var fetchAddSql_Params = [fetch.url, fetch.source_name, fetch.source_encoding, 
    fetch.title, fetch.keywords, 
	fetch.author,fetch.publish_date, fetch.crawltime.toFormat("YYYY-MM-DD HH24:MI:SS"), fetch.content];
    
    //执行sql
mysql.query(fetchAddSql, fetchAddSql_Params, function(qerr, vals, fields) {
	if (qerr) {
		console.log(qerr);
	}
	//调用mysql.js中的函数，将数据存储数据库里
});

在每次爬取新闻页面之前先查询数据库，是否该url已经爬取过了

将“newsGet(myURL);”改为：

var fetch_url_Sql = 'select url from fetches where url=?';
var fetch_url_Sql_Params = [myURL];
mysql.query(fetch_url_Sql, fetch_url_Sql_Params, function(qerr, vals, fields) {
	if (vals.length > 0) {
		console.log('URL duplicate!')
	} else  newsGet(myURL);
});

感想：

中间一度出不来真的是让人绝望…
知识还是太欠缺，只能按照别人的思路走，希望慢慢会好起来吧，感觉看了很久也没有摄入有需要的营养…
我应该再学习一些相关知识了。

童安

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Node.js爬虫实验项目（三）基础代码与更新

实现代码1.分析种子页面。2.分析出种子页面里的所有新闻链接。3.爬取所有新闻链接的内容。4.分析新闻页面内容。5.将结构化数据保存到本地文件。1.引入必须的模块，定义要访问的网站var fs = require('fs');var myRequest = require('request')var myCheerio = require('cheerio')var myIco...
复制链接

扫一扫