![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python爬虫
python爬虫
九五二七#
这个作者很懒,什么都没留下…
展开
-
解析-BeautifulSoup
BeautifulSoup基本使用。爬取星巴克菜单网页内容实例。原创 2023-09-22 23:36:51 · 84 阅读 · 0 评论 -
解析-JsonPath
JsonPath解析淘票票网页城市的json案例。jsonpath的基本使用。原创 2023-09-22 16:36:58 · 247 阅读 · 0 评论 -
解析-xpath
(6)如果crx文件失效,需要将后缀修改zip。xpath获取百度网站的百度一下四个字。(5)拖拽xpath插件到扩展程序中。(1) 打开chrome浏览器。注意:提前安装xpath插件。(8) 关闭浏览器重新打开。(2) 点击右上角小圆点。爬取站长素材网的风景图片。(10) 出现小黑框。原创 2023-09-21 14:37:45 · 118 阅读 · 0 评论 -
代理池
由于使用某一个代理IP高频词的访问也会被觉察到,所以可以随机使用代理池中的IP去访问。原创 2023-09-20 13:45:00 · 26 阅读 · 0 评论 -
代理服务器
【代码】代理服务器。原创 2023-09-20 09:15:00 · 126 阅读 · 0 评论 -
Handler处理器
使用Handler访问百度页面,获取网页源码。原创 2023-09-19 05:30:00 · 23 阅读 · 0 评论 -
Cookie
个人信息页面是utf-8 但是还报了编码错误,因为并没有进入到个人信息页面,而是跳转到了登录页面,登录页面不是utf-8所以报错。适用的场景:数据采集时需要绕过登录页面进入到某个页面。原创 2023-09-19 11:15:00 · 31 阅读 · 0 评论 -
Urllib异常
4.通过urllib发送请求的时候,有可能会发送失败,这个时候如果想让你的代码更健壮,可以通过try-except进行异常捕捉,异常有两类,URLError\HTTPError。 3.http错误:http错误是针对浏览器无法连接到服务器而增加出来的错误提示,引导并告诉浏览者该页是哪里出了问题。 2.导入的包urllib.error.HTTPError urllib.error.URLError。简介:1.HTTPError类是URLError类的子类。原创 2023-09-19 00:30:00 · 33 阅读 · 0 评论 -
Ajax
获取豆瓣喜剧电影排行榜第一页的数据获取豆瓣喜剧电影排行榜任何几页的数据由上面前三个网页可以得到网页的规律为代码如下。原创 2023-09-18 17:30:00 · 190 阅读 · 1 评论 -
Urllib编解码
data的封装是在post请求或者get请求中涉及变量才用到。原创 2023-09-18 16:30:00 · 139 阅读 · 1 评论 -
Urllib
urllib的基本使用一个类型和六个方法urllib下载。原创 2023-09-18 12:09:25 · 1049 阅读 · 1 评论