Python爬虫
文章平均质量分 76
liusuxilinyue
学生,目前仍在学习中,希望大家一起共同努力奋斗!
展开
-
五、python进阶,使用Selenium指挥浏览器工作
1、说明selenium是一个强大的python库,他可以用几行代码,控制浏览器,做出自动打开、输入、点击等操作,就像是有一个真正的用户在操作一样。安装:windows:pip install seleniummac:pip3 install selenium另外,selenium的脚本可以控制所有常见浏览器的操作,在使用之前,需要安装浏览器的驱动。推荐使用Chrome浏览器,下面有一个...原创 2020-06-23 18:21:54 · 774 阅读 · 1 评论 -
一、通过Requests模块获取网页内容并使用BeautifulSoup进行解析
这是Python爬虫系列文章第一篇首先列一下爬虫的四个基本步骤1.获取数据2.解析数据3.提取数据4.存储数据下面从最基本的获取数据开始讲起1、获取内容import requestsresponse = requests.get('url')# requests.get是在调用requests库中的get()方法,它向服务器发送了一个请求,# 括号里的参数是你需要的数据所在...原创 2019-09-02 11:38:39 · 4506 阅读 · 0 评论 -
二、Json获取以及数据存储
一、Json获取这一部分需要具备基本的开发基础,因为目前很多网站都是动态网页,数据并没有一次行全部返回到第一次渲染的html中,所以这时就需要从动态数据动手获取了。其实这一步比较简单,根据上一篇中积累的基础,这次只需要使用requests的另外一个方法——json解析res.json()这时的数据已经是python中的字典对象了,所以可以对其进行字典操作。Example(感兴趣可以看看网...原创 2019-09-02 14:38:45 · 310 阅读 · 0 评论 -
三、cookies与session的使用(解决登录获取数据问题)
一、cookiescookies就是登录之后网站记住你的登录消息,为下一次发送请求简化流程要获取cookies就要明白怎么使用post方法import requests#引入requests。url = ' https://wordpress-edu-3autumn.localprod.oc.forchange.cn/wp-login.php'#把请求登录的网址赋值给url。head...原创 2019-09-02 15:07:20 · 998 阅读 · 1 评论 -
四、豆瓣top250(BeautifulSoup)及京东商品评论(json)
一、豆瓣TOP250需求是把豆瓣TOP250里面的序号/电影名/图片地址/评分/推荐语/链接 都爬取下来,结果就是全部展示打印出来并进行csv文件存储import requestsfrom bs4 import BeautifulSoupimport csvcsv_file = open('C://Users/../Desktop/11/CSDN案例/data.csv','w',new...原创 2019-09-02 18:03:17 · 737 阅读 · 0 评论 -
五、应用——百度搜索天气使用邮箱定时推送数据
一、获取数据我们百度天气,使用北京天气为例,网址为http://www.weather.com.cn/weather/101010100.shtml。按照前面所学,能准确检查到network的第一个请求包含所需数据,我们可以通过静态方式获取数据。获取数据:import requestsfrom bs4 import BeautifulSoupheaders={'user-agent':...原创 2019-10-05 21:07:22 · 1595 阅读 · 0 评论