![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 54
SLASH_W1
在努力学习python的路上摸爬滚打
人生苦短,我用python
展开
-
Python抓取含中文网页乱码解决
该网站是一个诗词名句网站,网页打开之后是既含中文也含英文,但是爬取结果只能显示英文,中文会出现乱码。网页本身爬取结果乱码修正后代码import requestsfrom bs4 import BeautifulSoup# 对首页页面进行抓取headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome原创 2022-01-06 21:04:51 · 950 阅读 · 2 评论 -
爬虫_bs4
数据解析原理:标签定位;提取标签、标签属性中存储的数据值。bs4进行数据解析的原理:实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中;通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取环境安装:BeautifulSoup存在于bs4这个模块中,所以要先安装bs4,同理安装lxml是一个解析器如何实例化BeautifulSoup对象:(1)from bs4 import BeautifulSoup(2)对象实例化:将本地.原创 2022-01-04 23:13:25 · 675 阅读 · 0 评论 -
聚焦爬虫__糗事百科图片抓取__分页
把糗事百科页面翻到最底部可以看到一共有13页,现在打开第2,3页,看到上面的网址会变为https://www.qiushibaike.com/8hr/page/2/和https://www.qiushibaike.com/8hr/page/3/,改变的只有页码,所以就可以在指定url时,设置一个通用的url模板。爬取结果:代码:import requestsimport reimport os# 创建一个文件夹,保存所有图片if not os.path.exists('./qiutulib原创 2021-12-30 22:14:51 · 394 阅读 · 0 评论 -
聚焦爬虫__糗事百科图片抓取
要想使用聚焦爬虫,就先通过通用爬虫将整张页面爬取下来。数据解析原理概述:解析的局部文本内容都会在标签之间或标签对应的属性当中进行存储;进行指定标签的定位;标签或标签对应属性所存储的数据进行提取;基于聚焦爬虫的编码流程:指定url;发送请求;获取响应数据;数据解析;持久化存储图片是一个二进制数据,有对应的url去标识...原创 2021-12-30 21:18:46 · 410 阅读 · 0 评论 -
国家要监督管理总局信息爬取
爬取药监局的企业详情数据的第一页及分页设置药监管总局官网点击每一个企业都会跳转页面,进入到该企业的详细数据页,以第一个为例我们要爬取的就是每个企业的详细数据,就需要找到官网页面的url和每家企业的详情页url之间的关系。打开官网页面的开发者模式,可以看到发送的是post请求,json格式数据,并且url携带多个参数,需要进行参数封装打开响应数据response可以看到响应数据的json格式,现在需要将这些响应数据复制到在线JSON校验格式化中进行校验,对其进行分析,发现每家企业都对应唯原创 2021-12-23 23:14:49 · 1640 阅读 · 3 评论 -
豆瓣电影详情数据爬取
这次的爬虫我们来看url携带多个参数的页面爬取打开豆瓣电影排行榜官网,这里我选择了喜剧类型,发现只要将鼠标下滚翻到该页面最底部,滚轮就会重新跳到中间,相当于浏览器又发送了请求,重新加载一个页面,对应打开该网页的开发者模式,可以看到是get请求,并且携带多个参数,所以需要继续声明一个字典对其进行封装。import requestsimport jsonget_url='https://movie.douban.com/j/chart/top_list'#原来的URL是https://movi原创 2021-12-23 12:03:16 · 2067 阅读 · 0 评论 -
入门级爬虫
近期学了一些爬虫小程序,懒得手写,写篇博客记录自己的收获首先来写爬虫的大概步骤指定url发送请求获取响应数据持久化存储基础版爬虫# 写爬虫之前要先配置环境,需要安装发送请求包requestsimport requestsurl="https://www.taobao.com/"# 打开开发者模式,可以看到浏览器发送的是get请求,此时调用requests中的get方法发送请求,请求成功之后才会出现响应数据,这里用response去接收response=requests.get(ur原创 2021-12-23 10:46:48 · 520 阅读 · 0 评论 -
百度翻译结果爬取
加强版爬虫在百度翻译搜索框中输入关键字,得到响应页面的局部文本数据,即关键字翻译结果。要实现这样的功能本来是需要解析数据才可以得到,现在我们换一种方法,首先分析百度翻译的页面,每搜索一个关键字就进行一次局部刷新,实现页面局部刷新,就要用到AJAX请求。输入的关键字是python,打开对应网页的开发者模式,先找到1选项卡XHR,然后找到3框数据包查看,发现是post请求,服务器端响应回客户端的数据类型是json格式,并且该请求携带参数,对应2可查看携带参数是否为python,那么它就是我们要找的AJAX数原创 2021-12-23 10:43:45 · 553 阅读 · 0 评论 -
爬虫视频总结
从爬取淘宝保存为csv文件这个案例来讲。迫于B站视频上传C站审核不通过,只能直接上文字版链接了。基础版写爬虫:https://www.bilibili.com/video/BV1CW411C7ZM?spm_id_from=333.999.0.0进阶版面向对象写爬虫:https://www.bilibili.com/video/BV1VW411y7Cd?from=search&seid=2911900904516132152&spm_id_from=333.337.0.01、 IDE(集原创 2021-12-21 17:39:51 · 411 阅读 · 0 评论 -
爬取某城市一个月内的天气情况
前段时间面试了伊利集团,领导现场出题,让我爬取天气网站上的城市降水量,这里我做了一个简单的爬取呼和浩特市一个月内的天气情况的爬虫小程序,最终结果是保存在一个txt文件夹中,感兴趣的各位可以参考一下。(当然程序我也是参考了别人的,嘿嘿嘿!!)爬虫的整体原理可以参考我的上一篇博客,是我从b站上看视频做的一点总结,想快速上手爬虫的小伙伴快来!!程序底层框架(一)导入所需库这里我们导入需要的第三方库和内库requests这个是第三方库,需要自行安装,pip一下,它主要用来发送请求re这是一个内库,原创 2021-12-01 23:09:45 · 1260 阅读 · 2 评论 -
txt文件转csv文件乱码问题
新建文本文件这里我们新建一个记事本,注意里面的表格属性(列)之间要用英文的逗号隔开,现在我们把它保存,转换为一个csv文件转换为csv文件直接重命名文件扩展名即可,我们打开csv文件,发现是乱码修改编码方式我们继续将文件扩展名改为txt,打开后另存为,发现他的编码方式是UTF-8,我们将其修改为ANSI即可再次重命名为csv文件,打开就不会出现乱码...原创 2021-11-30 08:38:11 · 5775 阅读 · 1 评论 -
Xpath helper下载安装使用
一、Xpath helper下载地址:Xpath helper提取码:337b二、解压将下载的.crx文件后缀改为.rar格式,然后新建一个文件夹将其放入,解压到当前文件夹三、谷歌浏览器开启开发者模式依次点击右上角三点——>设置——>扩展程序——>加载已解压的扩展程序——>选择刚才新建的文件夹即可四、使用首先需要按F12打开网页开发者模式,找到对应需要解析部分的位置,然后右击选择Copy XPath即可快捷键Ctrl+Shift+X打开XPath解析器,原创 2021-11-28 23:21:42 · 5228 阅读 · 0 评论