python爬虫
赤坂·龙之介
专注python,pytorch常见函数的解析。
展开
-
正则表达式实战---爬取多张图片
主要是分析网站图片的html源代码,来决定正则表达式如何写。完整代码#使用正则表达式爬取多张图片,亮点在于数据解析#爬取网站:https://www.bilibili.com/read/cv11323037?from=searchimport requestsimport reimport osimage_path='image'if not os.path.exists(image_path): os.makedirs(image_path)url='https://www.b原创 2021-06-20 21:28:20 · 630 阅读 · 0 评论 -
Requests库实战(四)---爬取肯德基餐厅地址信息
功能:爬取查询后的肯德基餐厅的地址信息地址:http://www.kfc.com.cn/kfccda/storelist/index.aspx亮点是post请求的参数有两组:查询字符串参数,表单数据。对于post请求,由于url中隐藏了许多参数,所以引入了表单数据,查询字符串参数用于拼接url,表单数据用于查询内容。理论上查询字符串参数用params传递,表单数据用data传递。但是实践证明都放入params或data中传也没问题。完整代码import requests#请求url:http:/原创 2021-06-19 20:58:39 · 1071 阅读 · 0 评论 -
Requests库实战(三)---爬取豆瓣电影详细信息
完整代码爬取豆瓣电影的详细信息地址:豆瓣电影动画向下滑动时新增的数据也是Ajax请求,原理和上一个项目是一样的。import requestsimport jsonheader={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.101 Safari/537.36 Edg/91.0.864.48'}url='h原创 2021-06-19 19:59:59 · 286 阅读 · 0 评论 -
Requests库实战(二)---破解百度翻译
功能:爬取到页面中翻译后的文本数据获取请求地址和请求方式先输入dog翻译一下,发现是Ajax请求(动态实时刷新页面),Ajax请求的数据包可以在网络的XHR中看到。找到输入dog的数据包,通过标头的表单数据kw:dog以及响应的结果就可以看到是这个数据包。在标头的常规中得到请求URL和请求方式(post),在响应头看到响应结果类型为json数据完整代码import requestsimport json#伪装UAheader={ 'User-Agent':'Mozilla/5原创 2021-06-19 19:24:31 · 294 阅读 · 0 评论 -
Requests库实战(一)---网页采集器
网页采集器User-Agent伪装完整代码功能:通过动态url来实现用户输入搜索关键字,返回搜索到的页面。User-Agent伪装一种反爬机制。原理:网站的服务器会检测对于请求的载体身份标识,如果检测到请求的载体身份标识为某一款浏览器,说明该请求为一个正常的请求。然而我们写的get请求的身份标识是爬虫程序,所以需要伪装成浏览器的User-Agent。完整代码import requestsheaders={ 'User-Agent':'Mozilla/5.0 (Windows NT 1原创 2021-06-19 17:06:47 · 225 阅读 · 0 评论 -
Requests库基本使用
requests库基本使用基本流程python中一个基于网络请求的模块,功能强大,简单便捷,效率极高,可以取代古老的urllib模块。作用:模拟浏览器向服务器发起请求。基本流程1.指定URL2.对指定的URL发起请求(get或post)3.获取响应的数据4.持久化存储数据,即将数据存储到本地如爬取搜狗主页信息,代码如下:import requests#1.指定urlurl="https://www.sogou.com/"#2.发起请求,get方法返回一个响应对象response原创 2021-06-19 16:06:34 · 154 阅读 · 0 评论 -
python用xpath爬取10页网站图片
#爬取网站图片import requestsfrom lxml import etree import osi=0 #计数#请求头headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36"}for x in range(1,11): html="https://www.z原创 2020-07-23 22:09:42 · 888 阅读 · 0 评论 -
旧版Requests库
Requests解析库方法最常用的两个方法:request.get()request.post()作用:都是从服务器获取网页信息区别:get请求的数据能显示在URL上,post请求的数据信息隐藏在Headers中FromData里。response对象浏览器向服务器发出请求,即requests。服务器向浏览器发出响应,即response。用get方法举例,response=request.get(url) response对象包括状态码,响应头,响应体。response对象的属原创 2020-07-09 21:27:42 · 599 阅读 · 0 评论 -
python爬取网站的图片
python爬取网站的图片本次爬取图片所需要用到的库:Requests库,BeautifulSoup库,正则表达式,os库。思路:先爬一张图片,再爬一个网站的图片先爬一张图片:首先要得到这张图片的地址,可以直接找到图片然后复制地址,还可以在网站中右击然后检查(谷歌浏览器快捷键是F12)中找到,这里用后种方式方便后面的理解,如图:然后就可以把地址复制到代码中去,代码如下:import ...原创 2019-04-23 17:26:39 · 2164 阅读 · 5 评论