![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
jackandsnow
让优秀成为一种习惯,个人网站 www.jackjie.top
展开
-
爬虫踩坑系列——etree.HTML解析异常
在爬虫的过程中,难免会遇到各种各样的问题。在这里,为大家分享一个关于etree.HTML解析异常的问题。1.问题描述:爬虫过程中,一般会使用requests.get()方法获取一个网页上的HTML内容,然后通过lxml库中的etree.HTML来解析这个网页的结构,最后通过xpath获取自己所需的内容。本人爬虫的具体代码可简单抽象如下: res = requests.get(url) h...原创 2019-08-13 15:02:11 · 33943 阅读 · 2 评论 -
爬取深圳市政府政务公开所有文件
文章目录一、前言二、获取文件URL列表1.获取各类文件的URL2.获取每类文件的总页数3.获取每个网页上的文件URL三、爬取文件内容1.爬取文件的基本信息和内容2.下载相应的附件四、保存结果1.保存单个文件内容到word2.保存所有文件基本信息到excel五、致谢(含源代码)一、前言在写这篇博客之前,笔者是爬取了深圳市政务公开、政府公报、政府工作、新闻报道、政策解读等所有文件,由于这些网页的大...原创 2019-08-29 21:48:12 · 6150 阅读 · 5 评论