目前在做政策相关的文本分析,手头上现成的数据资源质量较差,就自己写了个爬虫。
对爬虫有几个要求,如下:
1. 获取标签中的内容
2. 获取内容
3. 保留 HTML 文档定义样式信息(用于后期重新展示)
4. 监测网站更新,并实时更新数据库内容
5. 防错机制(目前国务院网站第一条消息会显示404)
6. 将数据写入数据库
本文后续: https://blog.csdn.net/hangyu1214/article/details/115208493
Github链接: https://github.com/ht2459/gov_wj