爬取每则知乎日报

最新推荐文章于 2024-04-07 09:48:41 发布

简讯Alfred

最新推荐文章于 2024-04-07 09:48:41 发布

阅读量980

点赞数

分类专栏： python脚本文章标签：爬虫知乎日报

转载请注明博主个人博客地址：https://lijianxun.top | 本文为博主的原创文章，如果帮到您请在下方点赞。

本文链接：https://blog.csdn.net/A_lPha/article/details/54577099

版权

本文介绍了一个爬取知乎日报文章的脚本，目前能成功获取每篇文章的标题，但正文内容的提取仍有待完善。主要思路是进入文章详情页，利用正则表达式解析关键信息，虽然在实现过程中遇到挑战，但已找到解决方案。

摘要由CSDN通过智能技术生成

#Python 3.5
#By A_lPha
#http://blog.csdn.net/a_lpha

from urllib.request import urlopen
from bs4 import BeautifulSoup
import requests
import re

URL = "http://daily.zhihu.com/"

def get_url(URL):
    bsobj = urlopen(URL)
    text = bsobj.read().decode("utf-8")
    return text

def get_reg