![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 51
小xiao露
这个作者很懒,什么都没留下…
展开
-
BeautifulSoup4库
1、BeautifulSoup4库介绍:和lxml一样,BeautifulSoup4也是一个HTML/XML的解析器,主要的功能也是如何解析和提取HTML/XML数据。2、BeautifulSoup4与lxml的区别:lxml只会局部遍历,而BeautifulSoup4是基于HTML DOM(Document Object Model)的,会载入整个文档,解析整个DOM树,因此时间和内...原创 2018-10-28 16:56:41 · 504 阅读 · 0 评论 -
requests库
1、安装和文档地址pip install requests中文文档:http://docs.python-requests.org/zh_CN/latest/index.htmlgithub地址:https://github.com/requests/requests2、发送get请求import requestsresponse=requests.get('http://...原创 2018-10-27 00:17:36 · 92 阅读 · 0 评论 -
XPath 语法
1、XPathxpath(XML Path Language)是一门在XML和HTML文档中差值信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历。 2、XPath语法 2.1选取节点表达式 描述 示例 结果 nodename 选取此节点的所有子节点 .xpath('bookstore') 选取bookstore下所有的子节...原创 2018-10-27 22:52:39 · 354 阅读 · 1 评论 -
lxml模块
1、lxml介绍lxml是一个HTML/XML的解析器,主要的功能是如何解析和提取HTML/XML数据。2、lxml解析HTML代码:可以用来解析HTML代码,并且在解析HTML代码的时候,如果代码不规范,会自动进行补全。#导入包form lxml import etreetext='''<div> <ul> <li c...原创 2018-10-27 23:48:28 · 584 阅读 · 0 评论 -
正则表达式1
group()函数:group()函数可以将匹配到的字符串打印出来match()函数 :match()函数只能从文本的开始部分匹配。1、匹配单个字符1.1、匹配某个字符串:text='hello'ret=re.match('he',text)print(ret.group())1.2、点(.)匹配任意字符,不能匹配换行符text = "ab"ret = r...原创 2018-10-30 23:46:32 · 146 阅读 · 0 评论 -
正则表达式2
search()函数,在整个文本中查找匹配1、^(脱字号):表示以……开始,如果在中括号表示取反操作text='hello'ret=re.match('^h',text)print(ret.group())>>h2、$:表示以……结束text='xxx@163.com'ret=re.search('\w+@163.com$',text)print(ret...原创 2018-11-01 22:36:09 · 122 阅读 · 0 评论 -
代理设置ProxyHandler处理器
在进行爬虫的时候,很多网站会检测某一段时间内同一个ip的访问次数,如果访问的次数异常多,就会禁止这个ip的访问,可以通过设置一些代理服务器,通过每隔一段时间换一个代理进行爬取。通过urllib中的ProxyHandler来设置代理服务器。常用的代理有:西刺免费代理IP:http://www.xicidaili.com/ 快代理:http://www.kuaidaili.com/ 代理云...原创 2018-12-08 14:28:34 · 424 阅读 · 0 评论 -
scrapy爬虫基础
一、安装所需包1、首先安装scrapy包:pip install scrapy2、在windows系统下,还需安装pypiwin32这个包:pip install pypiwin32二、创建项目1、命令行操作进入指定盘:比如要进入D盘:在命令行输入: d: 或 D: 即可 进入指定文件夹:cd+文件名 查看指定文件夹下的子文件目录:cd+文件名+dir 在某文件下创建文件...原创 2019-02-23 21:31:27 · 337 阅读 · 0 评论