Python爬虫
文章平均质量分 58
爬虫
做个不一样的小丑
我觉得面对困难还能保持微笑的男人最帅
展开
-
Python爬虫-5 scrapy框架
1 安装2 框架组成引擎(engine)下载器(downloader)爬虫spiders调度器(scheduler)管道(Item pipeline)3 工作原理4 如何使用5 保存数据的流程如果要把数据通过`json`形式 保存在文件的话,那么 pipeline 文件中,应该使用 JsonLinesItemExporter 方法在爬虫文件中,请求其他的链接地址传递请求的参数获取传递的参数如果项目初始的请求方式就是 post 的话, 那么需要 在 爬虫文件中 重写 start_request 方法scra.原创 2021-03-24 19:15:57 · 250 阅读 · 0 评论 -
Python爬虫-4 selenium
selenium支持通过各种driver(FirfoxDriver,IternetExplorerDriver,OperaDriver,ChromeDriver)驱动真实浏览器完成测试。selenium也是支持无界面浏览器操作的使用selenium+chromedriver模拟浏览器行为获取数据selenium相当于是一个机器人。可以模拟人类在浏览器上的一些行为,自动处理浏览器上的一些行为,比如点击,填充数据,删除cookie等。chromedriver是一个驱动Chrome浏览器的驱动程序,使用他才原创 2021-03-22 14:03:28 · 248 阅读 · 0 评论 -
BeautifulSoup练习
中国天气网http://www.weather.com.cn/textFC/hb.shtml爬取除了港澳台所有地区的城市名和最低气温然后再获取温度最低是个城市import requestsfrom bs4 import BeautifulSoupfrom pyecharts.charts import Barfrom pyecharts import optionsheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Wi原创 2021-03-19 15:27:26 · 514 阅读 · 4 评论 -
xpath练习
买家秀http://www.tbqq.net/爬取图片与名字import requestsimport osfrom lxml import etreefrom urllib import requestimport threadingdef maijiaxiu(url,page): res = requests.get(url=url,headers=headers) # print(res.text) content = res.text tree =原创 2021-03-16 19:33:55 · 695 阅读 · 0 评论 -
爬取站长之家
爬取站长之家爬取图片https://sc.chinaz.com/tupian/可以随便找一个分类进行爬取练习注意:这里的src存在一个懒加载,你先定位到第一张图片的代码块,然后找到最后一张图片的代码块,你会发现这里的src还是src2,如果你把页面翻到最后一张图片,你再去看src就是src了,多看源码这里我就没有去做分页爬取了,大家也可以去试一试分页爬取import requestsfrom lxml import etreefrom urllib import requestimport原创 2021-03-16 18:56:02 · 679 阅读 · 0 评论 -
Python爬虫-2 xpath语法
XPath使用xpathpip install lxmlimport lxmlfrom lxml import etreeXPath Helper插件chrome插件网:http://www.cnplugins.com/添加插件Ctrl + Shift + X打开或关闭插件XPath 术语节点(Node)在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。选取节点X原创 2021-03-16 17:25:03 · 204 阅读 · 0 评论 -
爬取一些翻译
百度翻译找到百度翻译这个页面,右键检查,点到Network,再点一下XHR,再在那块翻译板上随便输入点什么,再删除,直到出现sug这个接口,点到sug,我们看一下Response,可以很清楚的看到是一个json字符串,从Headers中的General可以清楚的看到这是一个post请求,From Data里的kw参数就是你要翻译的数据演示如下:import requestsurl = 'https://fanyi.baidu.com/sug'headers = { 'User-Ag原创 2021-03-16 11:07:51 · 546 阅读 · 3 评论 -
Python爬虫-1 请求头快速添加引号
urllib库图片下载import urlliburllib.request.urlretrieve(url='图片地址',filename='存储路径')# 掌握这一个方法就好了如果你不使用这个方法,就需要先获取图片的二进制数据,也就是对图片地址发起请求,,再以wb的方式写入文件注意这只是演示,import requestscontent = requests.get(url='图片地址',headers=headers).contentwith open('c,存储路径','wb'原创 2021-03-15 09:20:18 · 1005 阅读 · 0 评论