1.爬取新闻网页(此处以新浪军事网为例)
打开网页
右键点击“检查”选取要爬的文章,查看文章所在标签
如图标签为<ul class="part1 arcticle-list">
再次右键点击“查看网页源代码”,进入源代码页面。
按“ctrl+f”粘贴标签快速搜索标签位置,并得到代码结构、文章链接
选择标签下一个新闻链接进入,重复上述操作获得文章时间、标题、来源及内容的标签
以下是代码
2.存入crawl数据库(此处用navicat软件)
先上mysql.js
在navicat上点击右上“文件”选择“新建连接”,新建一个数据库(此处取名database,密码root)
在crawl列表下右键新建表,依照爬取内容建立表内列名、索引,选取有关格式等选项,保存时表名取news
运行之前所写的爬虫代码,打开表即可查看数据
3.搭建服务器(具有搜索关键词功能)及前端
server.js
index.html
运行server.js,然后在浏览器输入主机地址127.0.0.1:1337进入页面
尝试搜索关键词“哥伦比亚”,成功出现含有词条的新闻
感谢浏览。