经过上次的两个新闻网页的爬虫实践,积累了一定的经验和技巧后,对后续的网页爬虫也是相对轻松了不少。然后第三个网页我选择了人民网(因为人民网的网页结构相对比较简单)。然后也是附相关代码如下:
由于自己这方面的能力不强,所以就先爬取这三个网页。开始下一步操作:制作网页。
一开始我以为html+js是一个非常简单的操作,只要如下这样的办法就可以轻松做到
所以我觉得这个事情没有那么困难,但是实际操作之后浏览器的控制台却频频报错。毫无办法,我只能去向助教寻求帮助
在再次回去仔细观看了课件等资料后,我才意识到这个任务没有想的那么简单。至少我得掌握怎么样用一个网页向服务器发送请求以及后续的一些操作方法。
所以基本又是从零开始,之前看课件的时候迷迷糊糊,现在要狠狠的补一补。
再次学习后看到这样的服务器+网页,仔细分析了相关的内容之后我开始了修改。我构想中至少是要有一个输入文本框来输入关键词,然后点击提交后会显示出数据库中带有相应关键词的爬取内容。
当然如果只是考虑传入关键词的话,只需要把上面的代码稍作修改就好了。最关键的在于要访问数据库mysql。
查询了相关资料,我找到了如下的代码用来连接数据库:
对这里的user和password进行对应的修改之后就可以访问连接自己的数据库mysql了。像这里我想要选择除包含有**这个关键词的数据库中爬取的url。以“新冠”(**就是“新冠”)作为关键词的话,我们会得到:
这样其实在脱离浏览器html的前提下,我们搜索的目的就已经达到了。
接下来要做的就是把前面所说的两者结合在一起,就先写到这里。
JS爬取新闻内容——初学者的历程(二)
最新推荐文章于 2022-05-12 17:40:15 发布