前端设计与开发实验项目1:nodejs新闻爬虫及爬取结果的查询网站
项目要求
第一部分:爬虫部分
对三个新闻网站进行爬取:新浪财经、东方财富网、人民网。
爬虫步骤可大致分为两步:1.从网页获取需要的内容 2.对获取的内容进行处理
1.第一步:从网页获取需要的内容
这个部分中,各个网页不同,有一个便捷的方法:保存爬取到的body部分,直接搜索对应的关键词,比如:keyword,title,author等等,就可以快速定位;也可以打开开发者工具慢慢找。
- 新浪财经
从新浪财经的网页中寻找规律,提取所需字段
。
var source_name = "新浪财经";
var domain = 'https://finance.sina.com.cn/';
var myEncoding = "utf-8";
var seedURL = 'https://finance.sina.com.cn/';
var seedURL_format = "$('a')";
var keywords_format = " $('meta[name=\"keywords\"]').eq(0).attr(\"content\")";
var title_format = "$('.main-title').text()";
var date_format = "$('.date').text()";
var author_format = " $('meta[name=\"author\"]').attr(\"content\")";
var content_format = "$('.article').text()";
var desc_format = " $('meta[name=\"description\"]').eq(0).attr(\"content\")";
var source_format = "$('.source').text()";
- 东方财富网
从东方财富网的网页中寻找规律,提取所需字段
var source_nam