![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 52
啦哆咪
苦逼的学生狗
展开
-
lxml库
lxml库 lxml是一个HTML/XML的解析器,主要的功能如何解析和提取HTML/XML数据。 lxml和正则一样,也是用C实现的,是一款高性能的Python HTML/XML解析器,我们可以利用之前学习的XPath语法,来快速定位特定元素以及节点信息。 读取与解析HTML 解析字符串 # -*- coding:utf-8 -*- from lxml import etree text = ''' <ul> <li>列表1</li> <原创 2021-01-29 13:45:26 · 1528 阅读 · 0 评论 -
XPath基础
Xpath基础 xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历。 基础语法原创 2021-01-28 22:03:15 · 159 阅读 · 0 评论 -
requests库
requests库 requests是一个第三方HTTP库,其使用比起原生的urllib方便很多 安装requests pip install requests原创 2021-01-28 16:29:16 · 197 阅读 · 0 评论 -
ProxyHandler代理
ProxyHandler代理 什么是代理 很多网站会检测某一段时间某个IP的访问次数(通过流量统计,系统日志等),如果访问次数多的不像正常人,它会禁止这个IP的访问。所以我们可以设置一些代理服务器,每隔一段时间换一个代理,就算IP被禁止,依然可以换个IP继续爬取。 python代理的使用 使用方法如下: from urllib import request url = 'http://httpbin.org/ip' req = request.Request(url, headers={'User-A原创 2021-01-27 21:46:34 · 314 阅读 · 0 评论 -
urllib库
urllib库 urllib库是Python中一个最基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。 urlopen函数: 在Python3的urllib库中,所有和网络请求相关的方法,都被集到urllib.request模块下面了,以先来看下urlopen函数基本的使用: from urllib import request resp = request.urlopen('http://www.baidu.com') print(resp.read())原创 2021-01-27 19:57:33 · 1507 阅读 · 0 评论 -
爬虫基础
爬虫基础 什么是爬虫 通俗的说:通俗理解:爬虫是一个模拟人类请求网站行为的程序。可以自动请求网页、并数据抓取下来,然后使用一定的规则提取有价值的数据。 通用爬虫和聚焦爬虫 1.通用爬虫:通用爬虫是搜索引擎抓取系统(百度、谷歌、搜狗等)的重要组成部分。主要是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。 2.聚焦爬虫:是面向特定需求的一种网络爬虫程序,他与通用爬虫的区别在于:聚焦爬虫在实施网页抓取的时候会对内容进行筛选和处理,尽量保证只抓取与需求相关的网页信息。 为什么用Python写爬虫程原创 2021-01-27 19:53:13 · 112 阅读 · 0 评论