爬虫
文章平均质量分 87
天狼啸月1990
舟遥遥以轻飏,风飘飘而吹衣。
展开
-
python爬虫基础(一)~爬虫概念和架构
session是requests库中的一个类,创建session对象进行访问的好处是,session对象能够自动维护访问的cookies信息(通过js修改的cookies信息它是记录不到的)urllib.request.Request --> urlopen()方法可以实现最基本构造HTTP请求的方法,但如果加入headers等信息,就可以利用Request类来构造请求。我个人认为,select()方法兼容方法更多,更关键的是,它支持提取子标签匹配规则,即:'a>div>img'。原创 2021-06-06 22:13:17 · 1778 阅读 · 7 评论 -
正则表达式
例如,“er\b”可以匹配“never”中的“er”,但不能匹配“verb”中的“er”;“\b1_”可以匹配“1_23”中的“1_”,但不能匹配“21_3”中的“1_”。原创 2021-06-02 21:50:48 · 336 阅读 · 1 评论 -
python爬虫案例教程~淘女郎、百度百科文本、规范化爬虫
import urllib.requestimport urllib.parsefrom lxml import etreeimport sslssl._create_default_https_context = ssl._create_unverified_contextdef query(content): # 请求地址 url = 'https://baike.baidu.com/item/' + urllib.parse.quote(content) # 请求.原创 2021-06-02 16:29:19 · 340 阅读 · 1 评论 -
python爬虫基础(二)~工具包: 下载包requests、urllib和解析包BeautifulSoup(bs4)、lxml.etree.xpath
模块urllib和urllib2的功能差不多,简单来说urllib2是urllib的增强——urllib2更好一些,但是urllib中有urllib2中所没有的函数。在Python2.x中主要为urllib和urllib2,这两个标准库是不可相互替代的。使用lxml前注意,先确保html经过了utf-8解码,即code = html.decode('utf-8', 'ignore')/ -->类似于find(),// -->类似于find_all(),后面跟标签名,[@ ] --> @后面跟属性名。原创 2021-05-30 09:05:07 · 1120 阅读 · 2 评论 -
python爬虫实战(一)~爬取百度百科人物的文本+图片信息+Restful api接口
json,通信格式,可读性强,却会添加冗余空白格 --> separator对数据进行压缩。转载 2021-05-30 08:41:00 · 896 阅读 · 0 评论