前端设计与开发实验项目1:nodejs新闻爬虫及爬取结果的查询网站

项目要求

第一部分:爬虫部分

对三个新闻网站进行爬取:新浪财经、东方财富网、人民网。
爬虫步骤可大致分为两步:1.从网页获取需要的内容 2.对获取的内容进行处理

1.第一步:从网页获取需要的内容

这个部分中,各个网页不同,有一个便捷的方法:保存爬取到的body部分,直接搜索对应的关键词,比如:keyword,title,author等等,就可以快速定位;也可以打开开发者工具慢慢找。

  1. 新浪财经
    从新浪财经的网页中寻找规律,提取所需字段
var source_name = "新浪财经";
var domain = 'https://finance.sina.com.cn/';
var myEncoding = "utf-8";
var seedURL = 'https://finance.sina.com.cn/';

var seedURL_format = "$('a')";
var keywords_format = " $('meta[name=\"keywords\"]').eq(0).attr(\"content\")";
var title_format = "$('.main-title').text()";
var date_format = "$('.date').text()";
var author_format = " $('meta[name=\"author\"]').attr(\"content\")";
var content_format = "$('.article').text()";
var desc_format = " $('meta[name=\"description\"]').eq(0).attr(\"content\")";
var source_format = "$('.source').text()";
  1. 东方财富网
    从东方财富网的网页中寻找规律,提取所需字段
var source_nam
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值