![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
文章平均质量分 50
云yun云\^O^/
别把用来提升自己的时间拿去羡慕别人
展开
-
Python爬虫之数据解析
Python之数据解析1.图片数据爬取2.Python爬虫之正则解析案例爬取糗图百科页面的所有图片爬取糗图百科所有页面的所有图片3.bs4解析数据解析的原理:bs4数据解析的原理:如何实例化BesutifuiSoup对象:1.图片数据爬取**需求:**爬取糗图百科的一张图片图片数据爬取代码:import requestsif __name__ == '__main__': #如何爬取图片数据 url = 'https://pic.qiushibaike.com/system/pictures/原创 2021-08-23 21:26:18 · 243 阅读 · 0 评论 -
Python爬虫之Requests模块巩固深入案例
User-Agent:请求载体的身份标识。网站的服务器会检测对应请求的载体身份标识,如果检测到的载体身份标识为浏览器的话,就可以通过,反之,它会认出这是一个爬虫,就会无法被拒绝User-Agent的获取方法:在浏览器主页点击鼠标左键,选择检查,或直接使用requests实战之网页采集器import requestsif name == ‘main’:#UA伪装:将对应的User-Agent封装到一个字典中headers={“user-agent”:“Mozilla/5.0 (Windows原创 2021-08-15 09:36:43 · 206 阅读 · 0 评论 -
爬取百度贴吧
from urllib import requestimport urllibimport time#构造请求头信息header={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36 Edg/92.0.902.62", "cokie":"BAIDUID_BFESS=C21E87F3A6141原创 2021-08-10 18:22:46 · 86 阅读 · 0 评论 -
自定义opener && 代理ip && 处理get请求
自定义openerfrom urllib import request#构建HTTP处理器对象(专门处理请求的对象)http_hander=request.HTTPHandler()#创建自定义openeropener=request.build_opener(http_hander)#创建自定义请求对象req=request.Request("http://www.baidu.com")#发送请求,获取响应#reponse=opener.open(req).read().deco原创 2021-08-10 18:17:14 · 6964 阅读 · 0 评论 -
伪装浏览器的爬虫
伪装浏览器的爬虫代码这里主要爬取的还是百度的页面,所用的软件是sublime Text,需要的·朋友可以去官网上自行下载import urllib.request #引用库 <--> from urllib import requestimport reimport randomurl = r"http://www.baidu.com/"#浏览器名称---> User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) A原创 2021-08-02 21:38:17 · 151 阅读 · 0 评论 -
我的第一个爬虫——简单爬取百度
爬取代码>>> import requests>>> r=requests.get("http://www.baidu.com")>>> r.status_code200>>> r.encoding='utf-8'>>> r.text爬取结果原创 2021-07-31 20:26:21 · 214 阅读 · 0 评论