![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python爬虫
Python爬虫相关知识
西瓜味儿的小志
这个作者很懒,什么都没留下…
展开
-
爬虫之Scrapy框架
1. 什么是 scrapy 框架,其有什么特点?scrapy 是一个快速、高层次的基于 python 的 web 爬虫构架,用于抓取 web 站点并从页面中提取结构化的数据。scrapy 使用了 Twisted 异步网络库来处理网络通讯。优点:更适合构建大规模的抓取项目;基于twisted 框架异步处理请求,速度非常快,并发性较好性能较高;采取可读性更强的 xpath 代替正则;支持 shel...原创 2020-04-29 13:48:22 · 937 阅读 · 0 评论 -
爬虫之网页解析器BeautifulSoup
BeautifulSoup 是 Python 的一个 HTML 或 XML 的解析库,可以用它从网页中提取数据。它是借助网页的结构和属性等特性来解析网页的工具,有了它就不用再去写一些复杂的正则,只需要简单的几条语句就可以完成网页中某个元素的提取。它自动将输入文档转换为 Unicode 编码,输出文档转换为 UTF-8 编码。Unicode 编码特点:长度固定,编码用 2 个 Byte,所占用的空...原创 2020-03-05 12:25:44 · 415 阅读 · 0 评论 -
爬虫之网页下载器urllib和requests
网页下载器是将URL对应的网页以html的形式下载到本地存储成一个本地文件或字符串。1. urllib使用方法:(1)处理 get 请求。不传 data,则为 get 请求import urllibfrom urllib.request import urlopenfrom urllib.parse import urlencodeurl=‘http://127.0.0.1:1990/...原创 2020-02-18 12:09:29 · 478 阅读 · 0 评论