数 据 获 取
文章平均质量分 89
(数据获取学习实践
带带琪宝
这个作者很懒,什么都没留下…
展开
-
Python爬虫——Selenium在获取网页数据方面的使用
Selenium 可以实现,它本身是一款自动化测试工具,可以打开浏览器,像人一样操作浏览器,人们可以从 Selenium 中直接提取到网页上的各种信息,因为网页信息对于 Selenium 来说是透明的,其本质就是运行一个浏览器。selenium使用便捷,易于编写,可以屏蔽许多js加密、解密问题,但是其运行速度较慢,且一些网站会针对通过 selenium 方法进行的访问做反爬,所以使用的时候并不是万能的。打开浏览器,这里可以选择年份(需要点击),这是通过网页的 select 标签存放的。原创 2023-09-07 16:57:33 · 11748 阅读 · 0 评论 -
Python 的 datetime 模块
datetime 模块是对 time 模块的封装,这个模块提供了这几个类:date(日期)、time(时间)、datetime(日期时间,功能覆盖前两者)、timedelta(时间差)、tzinfo。文章用于记录模块的常用属性和方法(一些不太常用的可能不会涉及)python 里表示时间的格式有三种:时间戳、元组、格式化时间。与time模块类似,datetime 模块也能够将 datetime 类型转换成这三种类型。原创 2023-11-10 16:18:57 · 1914 阅读 · 0 评论 -
Python爬虫:获得某网站的一个视频+防盗链+代理
现在我想获得某网站的这个视频:这个视频储存在这个标签里,一般是可以直接通过这个链接获得该视频的但在页面源代码中搜索,并未获得结果,说明开发者工具的 HTML 与页面源代码有偏差的,于是在 NETWORK 的 XHR 里面有个 vedio 的信息,里面的链接理应是视频的播放链接但是通过这个链接,并无法访问视频对比两组URL可以看出一些端倪,实际可播放的URL与视频信息的srcURL并不一致显然,将下面准确的字段替换上去,就可以得到正确的视频链接了。原创 2023-08-10 17:04:45 · 255 阅读 · 0 评论 -
Python爬虫:通过url获得图片
(一)爬虫使用场景主要分以下几类。原创 2023-07-21 16:24:23 · 1571 阅读 · 1 评论 -
Python爬虫:正则的应用——批量获取网站图片
本文是按照改文章思路实现的,多亏博主终于令我找到了合适的网站能够实操了TTpython正则表达式实战——获取图片_正则方式提取图片是什么_爱吃饼干的小白鼠的博客-CSDN博客。原创 2023-07-25 16:48:40 · 1128 阅读 · 0 评论 -
Python爬虫学习:requests的使用,及两个实例
代码已经完成,运行成功,通过更改 “start” 与 “limit” 参数可以获取排行榜单上某段排名的电影数据。参数的意思:start:从库中的第几部电影取;打开抓包工具定位 Network 中的 XHR选项卡当中,拖动滚轮,到底部后新增了一个请求。因此,只要对该URL发起一个 get 请求并令其携带五个参数即可得到一组 json 类型的响应数据。后面的就是该网页的参数)将网页参数复制过来。该返回结果是一个列表类型的对象,因此使用 list_obj 接收。打开豆瓣电影的网站,选择排行榜,定位到喜剧类型。原创 2023-07-20 14:04:53 · 755 阅读 · 0 评论 -
利用 requests 处理cookie
在遇到登录后才能操作的情况,用session 保存上下文会话。原创 2023-08-04 11:58:12 · 690 阅读 · 0 评论 -
bs4解析入门:爬取当当网30天内热销的书名和价格
bs4 是 html 里。原创 2023-07-27 15:28:35 · 1063 阅读 · 3 评论 -
python爬虫:使用xpath基础+实例
Xpath 是高效简单,在XML文档中搜索内容的一门语言,最初是用来搜寻 XML 文档的,但是HTML语言是XML的一个子集,它同样适用于 HTML 文档的搜索。在Python爬虫中,我们经常通过安装lxml库,利用xpath解析这种高效便捷的方式来提取信息。原创 2023-07-31 13:31:00 · 6121 阅读 · 1 评论 -
Python爬虫:输入单词获取百度翻译的翻译结果
在学习 UA 伪装过后,我仍只知道如何通过 Python 爬虫访问某个网页,但如果我想获取百度翻译网站上某些具体内容又该如何操作呢?先打开百度翻译页面,只有某一块这才是我想要的内容,我想通过输入单词获得对应的翻译结果,该怎么做呢观察发现,在输入cat之后,URL 最后结尾会多一个 cat 单词,而当前页面会进行一个局部的刷新:打开抓包工具定位 Network 中的 XHR选项卡当中,这里有 Ajax 请求对应数据包。原创 2023-07-19 17:46:34 · 2886 阅读 · 0 评论 -
Python爬虫:UA伪装
若检测到载体身份标识为某款浏览器,说明该请求是个正常请求。若不是,则表示该请求为不正常的请求(即爬虫,请求载体要么是基于浏览器要么是基于爬虫),服务器可能会拒绝该次请求。正因为服务器可能会拒绝请求,所以在第2步发起请求时,将请求头信息伪装为 header,再进行 get() 请求。打开网页按F12,Ctrl+R,点击网络,请求标头中有个User-Agent,表示请求载体的身份标识。打开一个网页,利用上面的链接作为 URL,这里只需要用到。将这里我们浏览器的标识赋值给 header,是请求载体的身份标识。原创 2023-07-18 17:48:50 · 2404 阅读 · 1 评论