![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 74
时光爱客
明天是遥远的,我们只能从当下的努力中嗅出它的味道。
展开
-
爬取新浪、网易、今日头条、UC四大网站新闻标题及内容
首先说明一下,文件的命名不能含有:?|"* 新浪: 新浪网的新闻比较好爬取,我是用BeautifulSoup直接解析的,它并没有使用JS异步加载,直接爬取就行了。 from bs4 import BeautifulSoup from urllib import request def download(title, url,m): req = request.Request(url)原创 2017-10-24 11:28:05 · 16446 阅读 · 4 评论 -
python3 爬取网页的异常处理
有时候python爬取的网页会出现异常,我们需要添加异常处理 我们主要说明一下URLError和HTTPError 参考博客:点击打开链接 URLError 首先解释下URLError可能产生的原因: 网络无连接,即本机无法上网 连接不到特定的服务器 服务器不存在 HTTPError是URLError的子类,在你利用urlopen方法发出一个请求时,服务器上都会对应原创 2017-11-10 21:02:38 · 5733 阅读 · 0 评论