![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
okboy519
这个作者很懒,什么都没留下…
展开
-
猫眼数据爬取
import json import re import requests from requests.exceptions import RequestException # 伪造:UserAgent,某些网站会识别python爬虫程序并阻断,通过构造User_Agent可以抵抗某些反爬虫机制 from fake_useragent import UserAgent from multiprocessing import Pool ua = UserAgent() # 获取数据 def get_on原创 2020-08-01 17:31:18 · 491 阅读 · 0 评论 -
py3爬虫--beautiful-soup库的使用
Beautiful soup 灵活又方便的网页解析库,处理高效,支持多种解析器。 利用它不用编写正则表达式即可方便的实现网页信息的提取 安装 pip install beautifulsoup4 引入 import bs4 from 解析库 解析器 使用方法 优势 劣势 Python标准库 BeautifulSoup(markup,"html.parser") Python的内置标准库执行速度适中文档容错能力强 Python 2.7.3 or 3.2.2)前 的版本中文档容错能力差原创 2020-08-01 14:49:47 · 192 阅读 · 0 评论 -
python3爬虫笔记
什么是爬虫? **请求网站并提取**数据的 **自动化**程序 爬虫的基本流程 发起请求 通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers等信息,等待服务器响应 获取响应内容 如果服务器能正常响应,会得到一个Response,Response的内容便是索要获取的页面内容,类型可能有HTML,JSON字符串,二进制数据(如图片视频)等类型。 解析文本内容 得到的内容可能是HTML,可以用正则表达式、网页解析库进行解析。可能是JSON,可以直接转为JS原创 2020-08-01 13:18:06 · 116 阅读 · 0 评论