前端设计与开发实验项目1：nodejs新闻爬虫及爬取结果的查询网站

本文链接：https://blog.csdn.net/weixin_40691156/article/details/105812648

前端设计与开发实验项目1：nodejs新闻爬虫及爬取结果的查询网站

项目要求
第一部分：爬虫部分
第二部分：网站部分
第三部分：总结

项目要求

第一部分：爬虫部分

对三个新闻网站进行爬取：新浪财经、东方财富网、人民网。
爬虫步骤可大致分为两步：1.从网页获取需要的内容 2.对获取的内容进行处理

1.第一步：从网页获取需要的内容

这个部分中，各个网页不同，有一个便捷的方法：保存爬取到的body部分，直接搜索对应的关键词，比如：keyword,title,author等等，就可以快速定位；也可以打开开发者工具慢慢找。

新浪财经
从新浪财经的网页中寻找规律，提取所需字段。

var source_name = "新浪财经";
var domain = 'https://finance.sina.com.cn/';
var myEncoding = "utf-8";
var seedURL = 'https://finance.sina.com.cn/';

var seedURL_format = "$('a')";
var keywords_format = " $('meta[name=\"keywords\"]').eq(0).attr(\"content\")";
var title_format = "$('.main-title').text()";
var date_format = "$('.date').text()";
var author_format = " $('meta[name=\"author\"]').attr(\"content\")";
var content_format = "$('.article').text()";
var desc_format = " $('meta[name=\"description\"]').eq(0).attr(\"content\")";
var source_format = "$('.source').text()";