舆情监控系统——step1.爬取微信公众号文章

小明酱于2018年元旦更新,写的还是很糙,如果你在爬虫问题中遇到问题,欢迎交流哦,评论区随时为你开放!
实习两周过去了,目前任务量还不是很大。我的老板很nice,是个军校生,给我安排的任务也比我预想的要贴近我的研究方向,做的是微信公众号文章的舆情监控系统,以下是该系统总体设计流程图:

舆情监控系统

目前第一周是爬取微信公众号的文章,主要功能如下:

  • 按照搜索公众号id和关键字两种方法爬取文章的标题、内容、发布时间、 公众号名称
  • 以正确编码格式存储到数据库中
  • 实现将新增数据添加入数据库
  • 在关键字检索方式中按照时间顺序将文章排序,实现翻页爬取

以上功能均已实现,真心觉得在项目中学习才是最高效的方法,但同时也有不求甚解的毛病,希望自己能够深入把握下一周新学的知识,做一个总结,不能仅停留在插件式的编程。

下面我讲述下思路过程GitHub代码点击此处

主体思路

  • 通过微信合作方搜狗搜索引擎(http://weixin.sogou.com/),发送相应请求来间接抓取,可以实现两种检索方式,如下图:搜文章和搜公众号。

输入公众号ID,获取爬虫起始地址

http://weixin.sogou.com/weixin?type=1&s_from=input&query=+公众号ID+&ie=utf8&_sug_=n&_sug_type_=

  • 5
    点赞
  • 33
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值