用python爬取之后发现果然如此,都说知乎的小姐姐漂亮

 

前言

文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http://t.cn/A6Zvjdun

我们用爬虫爬了下这个问题下的高赞照片。在欣赏小姐姐的美照之前,我们先来分享一下思路。

首先通过浏览器的开发者工具,找到所有回答的链接。知乎的回答都是ajax的方式加载的,一次加载一页。

我们可以通过知乎回答的url,先把回答一页一页的爬下来,存到本地数据库。随后从数据库里读取数据,筛选出高赞的回答,把回答里的图片解析出来。

 

思路大致就是这样。

 
def get_answers_by_page(page_no): offset = page_no * 10 url = "<answer url>&offset={}&limit=10&sort_by=default&platform=desktop".format(offset) headers = { "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36", } r = requests.get(url, verify=False, headers=headers) content = r.content.decode("utf-8") data = json.loads(content) is_end = data["paging"]["is_end"] items = data["data"] client = pymongo.MongoClient() db = client["beauty"] if len(items) > 0: db.answers.insert_many(items) return is_end ​ def get_answers(): page_no = 0 client = pymongo.MongoClient() while True: print(page_no) is_end = get_answers_by_page(page_no) page_no += 1 if is_end: break ​ def query(): client = pymongo.MongoClient() db = client["beauty"] items = db.answers.find({"voteup_count": {"$gte": 100}}).sort([("voteup_count", pymongo.DESCENDING)]) count = 0 ​ for item in items: content = item["content"] vote_num = item["voteup_count"] author = item["author"]["name"] matched = re.findall(r'data-original="([^"]+)"', content) print("> 来自 {}\n".format(item["url"])) print("> 作者 {}\n".format(author)) print("> 赞数 {}\n".format(vote_num)) img_urls = [] for img_url in matched: if img_url not in img_urls: print("![]({})".format(img_url)) img_urls.append(img_url) count += len(img_urls) print("\n\n") print(count)

上面是3个函数。

  • get_answers_by_page - 这个函数用于获取一页的回答内容,获取的内容会存到本地MongoDB里
  • get_answers - 这个函数用于获取所有页的内容,它会调用上面的函数,循环获取每一页的内容
  • query - 这个函数用于从MongoDB里查询数据,筛选高赞回答,并且把结果打印出来

来自 https://www.zhihu.com/api/v4/answers/616931654

作者 不知

赞数 24153

 

 

 

来自 https://www.zhihu.com/api/v4/answers/768553689

作者 一只喝酒的猫Miao

赞数17702

 

 

 

.如果想了解更多关于python的应用,可以私信小编

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值