爬取知乎榜单并生成词云图

本文介绍了如何爬取知乎热门榜单并利用jieba进行中文分词,最终生成词云图。首先,通过设置headers伪装浏览器来爬取知乎热榜页面,接着解析h2标签下的HotItem-title获取标题。然后,对这些标题进行分词处理,最后展示词云图的效果。
摘要由CSDN通过智能技术生成

1.网页信息爬取

首先进入知乎热门榜单页面:https://www.zhihu.com/hot,使用requests库对页面进行爬取,其中需要注意的是:

请求头headers的user-agent应设置为Mozilla/5.0,将程序伪装成浏览器,否则服务器会判定你的程序是python爬虫,进而影响爬取;

url="https://www.zhihu.com/hot"
headers={'User-Agent':'Mozilla/5.0',
         'cookie':'_xsrf=0NKUqgDc8ezRmsJGb1xC5ukDIxHhxeMq; _zap=bfe65d37-53d8-46d3-ac1e-784e06dcf8a9; d_c0="ALCgxU862A6PTvBEmeag_oGAglx-a-SfU-g=|1547808969"; z_c0="2|1:0|10:1547808985|4:z_c0|92:Mi4xNFpjWUJBQUFBQUFBc0tERlR6cllEaVlBQUFCZ0FsVk4yZjR1WFFCcy1xaEJMbWpyNGNUSkJSY1JacnlXYTJQUWhn|ec267d1d4420cb5fdcfbad75dcf91d0216c07ec185736bbb8595d4b82628cf41"; __utmv=51854390.100--|2=registration_date=20170209=1^3=entry_date=20170209=1; tst=r; __gads=ID=ac032a91f2a254
  • 3
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值