来源 | 凹凸数据(ID:alltodata)
我们总是在爬啊爬,爬到了数据难道只是为了做一个词云吗?
当然不!这次我就利用flask为大家呈现一道小菜。
Flask是python中一个轻量级web框架,相对于其他web框架来说简单,适合小白练手。使用Flask+爬虫,教大家如何实时展示自己爬下来的数据到网页上。
先给大家展示一下这个丑丑的网页 ↓
(给个面子,别笑)
演示三个功能
整个流程就是简单的三步:
爬取数据
利用实时爬取数据生成词云
利用热点推荐新闻
爬虫部分
这次爬虫主要利用多线程方式爬取新浪新闻+网易新闻所有栏目新闻信息。
一共14个栏目,两个网站的页面信息都是通过ajax加载完成的,请求对应的栏目链接后,返回的字符串是这样的,仔细观察会发现我们要看的新闻内容被包含在data_callback里面
图2
是一个列表样式,
这时候我们就可以用eval函数将这个字符串处理成一个列表格式