![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
永修彭于晏
这个作者很懒,什么都没留下…
展开
-
爬虫简介
爬虫简介爬虫的实际例子:搜索引擎(百度、谷歌、360搜索等)。伯乐在线。惠惠购物助手。数据分析与研究(数据冰山知乎专栏)。抢票软件等。什么是网络爬虫:通俗理解:爬虫是一个模拟人类请求网站行为的程序。可以自动请求网页、并数据抓取下来,然后使用一定的规则提取有价值的数据。专业介绍:百度百科。通用爬虫和聚焦爬虫:通用爬虫:通用爬虫是搜索引擎抓取系统(百度、谷歌、搜狗等)的...原创 2018-12-27 08:43:56 · 2631 阅读 · 0 评论 -
python urllib库
urllib库urllib库是Python中一个最基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。urlopen函数:在Python3的urllib库中,所有和网络请求相关的方法,都被集到urllib.request模块下面了,以先来看下urlopen函数基本的使用:from urllib import requestresp = requ...原创 2018-12-27 08:45:43 · 288 阅读 · 0 评论 -
python requests库
requests库虽然Python的标准库中 urllib模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests宣传是 “HTTP for Humans”,说明使用更简洁方便。安装和文档地址:利用pip可以非常方便的安装:pip install requests中文文档:http://docs.python-requests.org/z...原创 2018-12-27 08:46:40 · 303 阅读 · 0 评论 -
XPath语法和lxml模块
XPath语法和lxml模块什么是XPath?xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历。XPath开发工具Chrome插件XPath Helper。Firefox插件Try XPath。XPath语法选取节点:XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。...原创 2018-12-27 08:47:59 · 467 阅读 · 0 评论 -
BeautifulSoup4库
BeautifulSoup4库和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。lxml 只会局部遍历,而Beautiful Soup 是基于HTML DOM(Document Object Model)的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。Beaut...原创 2018-12-27 08:48:44 · 473 阅读 · 0 评论