![](https://img-blog.csdnimg.cn/20190918140037908.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Python爬虫
Python爬虫
Mercy92
这个作者很懒,什么都没留下…
展开
-
【Python 爬虫 CASE】使用Requests+BeautifulSoup获取新闻网站文章内容并整理成表
一、需求获取新浪新闻网站(http://news.sina.com.cn/china/)首页的新闻内容F12打开开发者工具,查看源代码打开新闻链接,获取该新闻文章的“内容”、“标题”、“来源”F12打开开发者工具,查看源代码二、实现Step1:构建抓取具体文章内容的函数def getArticle(url): res = requests.get(url) res.encoding = 'utf-8' soup = BeautifulSoup(res.t原创 2020-10-21 16:31:48 · 1221 阅读 · 1 评论 -
【Python 爬虫 CASE】使用Selenium+BeautifulSoup获取新闻网站文章列表
一、需求获取腾讯新闻网站(https://news.qq.com/)首页的新闻标题和列表F12打开开发者工具,查看源代码二、实现Step1:获取网页源代码使用requests库获取源代码import requestsres = requests.get('http://news.qq.com/')但是这种方式获取的源代码由于渲染,和实际查看到的不一致,因此,需要使用Selenium库的webdriverfrom selenium import webdriverdriver=webd原创 2020-08-19 16:47:53 · 572 阅读 · 0 评论 -
【Python爬虫】基本原理和框架
获取响应内容:1、抓取网页文本#抓取网页文本import requestsheaders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}#请求头url='http://ww...原创 2019-09-19 01:16:53 · 636 阅读 · 0 评论 -
【Python 爬虫】Urllib、Requests、Selenium获取数据
一、GET请求1.基本写法requests.get(url, params=None, **kwargs)import requestsresponse = requests.get('http://httpbin.org/get')print(response.text)2.带参数方法1:显式拼接urlimport requestsresponse = requests.get("http://httpbin.org/get?name=germey&age=22")print原创 2020-08-12 17:19:42 · 1133 阅读 · 0 评论 -
【Python 爬虫】Json、正则、BeautifulSoup、PyQuery解析数据
如果返回的对象是json格式数据,需要使用json解析,才能使用期类似字典格式的属性(例如切片索引等功能),否则不解析就是’str’类response.json()import jsonjson.load(respons.text)注:json.dumps()用于将字典形式的数据转化为字符串,json.loads()用于将字符串形式的数据转化为字典如果返回的对象是二进制数据(图片视频等),可以用文件写入方法(wb)保存。response = requests.get("http://www.b原创 2020-08-18 10:04:44 · 1131 阅读 · 0 评论 -
【Python 爬虫 CASE】使用Selenium自动下载数据
一、需求从目标网站登陆后,从指定页面的下载链接处点击下载,鼠标悬浮后指定格式的文件,该页面有多个分页,以id区分二、实现STEP1:构造浏览器浏览器下载时每次都弹出弹窗询问,需要先禁用弹窗和设置下载路径火狐:...原创 2020-08-13 14:12:14 · 1036 阅读 · 0 评论 -
【Python 爬虫 CASE】使用友盟API获取数据
一、需求每天需要从友盟网站获取若干应用如下信息二、实现-分解1)获取api秘钥#获取api秘钥def authorize(user, pasw): url = 'http://api.umeng.com/authorize' body = {'email': '%s'%(user), 'password': '%s'%(pasw)} response = req...原创 2019-12-05 15:44:51 · 1895 阅读 · 4 评论 -
【Python 爬虫 CASE】使用新榜API获取数据
一、需求每日获取新榜网站收藏的微信公众号对应的【点赞数、排名、头条阅读数】二、实现-分解1)获取新榜api打开并登录新榜网站-数据服务-数据API点击试用即可,到达控制台,你的账号就获得API密钥,以及2000unit额度2)发送HTTP请求点击“查看文档”,跳转到接口列表,这里可以看到每种接口单次消耗unit数,选择所需的平台接口,我需要的是“微信-榜单-公众号历史榜单”阅读ap...原创 2019-12-06 14:34:40 · 1675 阅读 · 0 评论