前言:
为了满足自己看一些时下热门的新闻的需求,但又觉得打开每个平台再去翻找有点麻烦。
正好顺便学了一下爬虫。
说明:python语言,xpath方法,windows平台
步骤:
先声明一下自己导入的库
1.准备好网站,并将自己要爬取的数据所在的位置记录一下
我爬取的是知乎、微博、贴吧的热门
知乎热榜:
url_zhihu="https://www.zhihu.com/billboard"
微博热搜:
url_weibo="https://s.weibo.com/top/summary"
贴吧热议:
url_tieba="http://tieba.baidu.com/hottopic/browse/topicList?res_type=1&red_tag=a0897726284"
2.获取网站的html文本
此处仅贴了爬取知乎的代码。其他网站大同小异,请自行更改
ht=urlopen(url_zhihu).read().decode("utf-8")
html=etree.HTML(ht)
3.找到要爬取的内容的路径。
使用Xpath路径爬取内容说明:路径分为绝对路径和相对路径。
使用绝对路径时每一级的标签都不能漏掉比如("/html/bo