python爬虫
明日何其多_
这个作者很懒,什么都没留下…
展开
-
python爬虫:Selenium爬取B站视频标题、播放量、发布时间
上次尝试了利用Ajax机制爬取B站视频播放量等数据(链接在下方),但是发现响应的JSON数据中没有发布时间的数据,这次决定用Selenium试一下。python爬虫:Ajax爬取B站视频标题、播放量、评论量.SeleniumSelenium 是一个自动化测试工具,利用它可以驱动浏览器执行特定的动作,如点击、下拉等操作,同时还可以获取浏览器当前呈现的页面源代码,做到可见即可爬。相比于之前的爬虫它的速度会慢一些,但不会被Ajax动态加载等反爬机制干扰,可以直接进入开发者模式查找元素。具体实现先来看一下原创 2020-10-01 22:41:38 · 5899 阅读 · 2 评论 -
python爬虫:爬取CSDN文章标题、阅读量和创作时间
随便找了一位博主的主页。发出请求,打印出HTML。import requestsfrom pyquery import PyQuery as pqimport pandas as pdurl = 'https://me.csdn.net/wushaowu2014'headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrom原创 2020-08-21 08:49:55 · 541 阅读 · 0 评论 -
我的第一个爬虫:request+pyquery爬取B站热门视频标题与播放量
参考:Python爬虫学习基础——5分钟学会爬取B站视频日播放量排行.原创 2020-08-19 21:14:48 · 1435 阅读 · 1 评论 -
python爬虫:xpath爬取静态网页
关于爬虫我原来用的一直是pyquery解析库,最近尝试了一下xpath,发现它真的很强大。下面是一个xpath的一个小栗子。这是一个题库的网址,我们要做的就是把所有的题目和答案爬取下来,一共是16页。先用request获取页面的html。response = requests.get("http://syszr.hfut.edu.cn/redir.php?catalog_id=6&tikubh=4200&cmd=learning")print(response.text.enco原创 2020-11-04 09:54:41 · 4026 阅读 · 6 评论