Python爬虫
文章平均质量分 51
爬虫
Agatha方艺璇
路遥马急的人间,愿成长得明媚,与优秀为伍
展开
-
json解析模块
json解析模块 json.loads(json) 作用 把json格式的字符串转为Python数据类型 示例 html_json = json.loads(res.text) json.dump(python,f,ensure_ascii=False) 作用 把python数据类型 转为 json格式的字符串 # 一般让你把抓取的数据保存为json文件时使用 参数说明 第1个参数: python类型的数据(字典,列表等)list dict 第2个参数: 文件对象text.txt 第3个参数:原创 2021-01-03 18:49:43 · 288 阅读 · 2 评论 -
Request模块和Xpath
requests模块 1、安装 Linux sudo pip3 install requests Windows 方法一 进入cmd命令行 :python3 -m pip install requests 方法二 右键管理员进入cmd命令行 :pip3 install requests 2、requests.get() 作用:向网站发起请求,并获取响应对象 res = requests.get(url,headers=headers,timeout = 10) # requests.post原创 2021-01-03 18:43:42 · 543 阅读 · 0 评论 -
Python爬虫-爬取数据-urllib库
爬取数据-urllib库 一. 怎样扒网页呢? 其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS、CSS,如果把网页比作一个人,那么HTML便是他的骨架,JS便是他的肌肉,CSS便是它的衣服。所以最重要的部分是存在于HTML中的,下面我们就写个例子来扒一个网页下来 from urllib.request import urlopen response = urlopen("http://www.baidu原创 2020-09-03 21:04:22 · 764 阅读 · 0 评论 -
Python爬虫抓包工具使用
Python爬虫抓包工具使用 一. 常用的工具 python pycharm 浏览器 chrome 火狐 fiddler 2 fiddler的使用 二. 操作界面 三.界面含义 1. 请求 (Request) 部分详解 2. 响应 (Response) 部分详解 四. 设置 1. 如何打开 启动Fiddler,打开菜单栏中的 Tools >Options,打开“Fiddler Options”对话框 2. 设置 Capture HTTPS CONNECTs 捕捉HTTPS连接 Dec原创 2020-09-03 19:35:10 · 1933 阅读 · 0 评论 -
Python爬虫介绍
Python爬虫介绍 1、什么是爬虫? 网络爬虫也叫网络蜘蛛,如果把互联网比喻成一个蜘蛛网,那么蜘蛛就是在网上爬来爬去的蜘蛛,爬虫程序通过请求url地址,根据响应的内容进行解析采集数据, 比如:如果响应内容是html,分析dom结构,进行dom解析、或者正则匹配,如果响应内容是xml/json数据,就可以转数据对象,然后对数据进行解析。 2、有什么作用? 通过有效的爬虫手段批量采集数据,可以降低人工成本,提高有效数据量,给予运营/销售的数据支撑,加快产品发展。 3、业界的情况 目前互联网产品竞争激烈,业界原创 2020-09-03 19:04:16 · 255 阅读 · 0 评论