爬虫
文章平均质量分 65
爬虫
小狼总是来武馆做饭
这个作者很懒,什么都没留下…
展开
-
【爬虫】爬取某乎文章(含图片)
因为一般的像txt,csv文件是不能存储图片的,而md文件是可以的并且可以支持html标记的。是因为我的pycharm中打开html文件直接报404错误,所以本来我是优先存储为pdf文件的。通过selenium爬取知乎用户主页下的所有文章(含图片)并存储为md文件。③在源代码中通过xpath获取我们想要的内容的目标代码(含图片url)和标题。①通过selenium进行翻页获取完所有文章的详情页url并存储到一个列表。②通过requests获取到的源代码的图片为。所以要把图片url替换为有效的url。原创 2023-06-27 17:40:27 · 671 阅读 · 0 评论 -
selenium经典操作
selenium做爬虫能解决很多反爬问题,但是selenium也有很多特征可以被识别,比如用selenium驱动浏览器后window.navigator.webdriver值是true,而正常运行浏览器该值是未定义的(undefined)selenium是拿不到iframe里的数据的,如果想要拿到首先定位iframe然后再切换视角到iframe,最后再拿想要的数据。原创 2023-06-22 16:48:02 · 641 阅读 · 0 评论 -
python爬虫之正则,xpath,bs4基础语法
正则表达式,又称规则表达式(Regular Expression,在代码中常简写为regex、regexp或RE),是一种文本模式,包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为"元字符"),是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个语法规则的字符串,通常被用来检索、替换那些符合某个模式(规则)的文本。—正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。—正则表达式使用单个字符串来描述、匹配一系列匹配某个语法规则的字符串。原创 2023-06-19 13:27:23 · 751 阅读 · 0 评论 -
【爬虫】爬取动态网页内容并储存到表格
爬虫的第一步就是要获取网站的请求url,在这里我们是在第一页,然后点击下一页跳转到第二页之后发现,网页左上角的网址是没有变的。既然这是个动态网页那我们想要的数据肯定不是在网页源代码里的了,所以我们直接右击检查打开开发者工具,然后点击网络,选择Fetch/XHR,刷新网页,查看左边的网页。在我们点进第二页后发现已经刷新出了一些新的数据,我们依次点击,然后查看预览发现第一个就是我们想要的数据,而且很明显可以看出我们想要的数据是json数据。"后面的都是参数,接下来我们看一下参数情况,点击负载。原创 2023-04-19 18:43:14 · 1091 阅读 · 1 评论