Node.js爬虫实验项目(一)需求与基础

需求

核心需求:

  1. 选取新闻网站3-5个(新浪新闻网易新闻、雪球经济、东方财富、腾讯体育、虎扑体育)针对不同网站的新闻页面进行分析,爬取出编码、标题、作者、时间、关键词、摘要、内容、来源等结构化信息,存储在数据库中
  2. 建立网站提供对爬取内容的分项全文搜索,给出所查关键词的时间热度分析

技术要求:

1.必须采用Node.JS实现网络爬虫。
2.必须采用Node.JS实现查询网站后端,HTML+JS实现前端。

代码示例

此代码是对学校网站一篇文章所做的最简单的爬虫实例。

var myRequest = require('request')
var myCheerio = require('cheerio')
var myURL = 'https://www.ecnu.edu.cn/e5/bc/c1950a255420/page.htm'
function request(url, callback) {//request module fetching url
    var options = {
        url: url, encoding: null, headers: null
    }
    myRequest(options, callback)
}

request(myURL, function (err, res, body) {
    var html = body;
    var $ = myCheerio.load(html, { decodeEntities: false });
    //console.log($.html());
    console.log("title: " + $('title').text());
    console.log("description:" + $('meta[name="description"]').eq(0).attr("content"));
})

示例

var schedule = require('node-schedule') //设置定时爬虫
    var mylconv = require('iconv-lite'); //编码转换GB2312到UTF-8
    var fs = require('fs'); //保存到本地文件
    var mysql = require('mysql'); //可以elasticsearch构建爬取数据的索引

实验结果

在这里插入图片描述

注意点

1.安装完成node.js后在cmd中确认是否正确安装完成。
2.可以下载VScode来编写代码。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值