爬虫
okboy519
这个作者很懒,什么都没留下…
展开
-
猫眼数据爬取
import jsonimport reimport requestsfrom requests.exceptions import RequestException# 伪造:UserAgent,某些网站会识别python爬虫程序并阻断,通过构造User_Agent可以抵抗某些反爬虫机制from fake_useragent import UserAgentfrom multiprocessing import Poolua = UserAgent()# 获取数据def get_on原创 2020-08-01 17:31:18 · 491 阅读 · 0 评论 -
py3爬虫--beautiful-soup库的使用
Beautiful soup灵活又方便的网页解析库,处理高效,支持多种解析器。利用它不用编写正则表达式即可方便的实现网页信息的提取安装pip install beautifulsoup4引入import bs4 from解析库解析器使用方法优势劣势Python标准库BeautifulSoup(markup,"html.parser")Python的内置标准库执行速度适中文档容错能力强Python 2.7.3 or 3.2.2)前 的版本中文档容错能力差原创 2020-08-01 14:49:47 · 192 阅读 · 0 评论 -
python3爬虫笔记
什么是爬虫?**请求网站并提取**数据的 **自动化**程序爬虫的基本流程发起请求通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers等信息,等待服务器响应获取响应内容如果服务器能正常响应,会得到一个Response,Response的内容便是索要获取的页面内容,类型可能有HTML,JSON字符串,二进制数据(如图片视频)等类型。解析文本内容得到的内容可能是HTML,可以用正则表达式、网页解析库进行解析。可能是JSON,可以直接转为JS原创 2020-08-01 13:18:06 · 117 阅读 · 0 评论