数据挖掘r语言和python知乎_同时用R语言和Python爬取知乎美图

最新推荐文章于 2023-04-20 14:30:38 发布

weixin_39622710

最新推荐文章于 2023-04-20 14:30:38 发布

阅读量95

点赞数

文章标签：数据挖掘r语言和python知乎

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39622710/article/details/111458407

版权

原标题：同时用R语言和Python爬取知乎美图

学习Python已有两月有余，是时候检验下学习效果了，之前练习了不少R语言数据爬取，Python的爬虫模块还没有来得及认真入门，乱拼乱凑就匆忙的开始了，今天就尝试着使用R+Python来进行图片爬取，完成一个简单得小爬虫。

目标网址在这里：

https://www.zhihu.com/question/35931586/answer/206258333

R语言版：

library(rvest)

library(downloader)

url

link% html_nodes("div.RichContent-inner>span")%>%

html_nodes("img")%>%html_attr("data-original")%>%na.omit

#借助Chrome的审查元素功能，借助其路径copy功能精准定位图片所在节点

link

Name

dir.create("D:/R/Image/zhihu/zhihu0807") #建立存储文件夹

setwd("D:/R/Image/zhihu/zhihu0807") #锁定临时目录

for(i in 1:length(link)){

download(link[i],Name[i], mode = "wb")

} #下载过程：

-----------

Python:

---------

import requests

from bs4 import BeautifulSoup

import os

import re

import urllib

目标网址：

url="https://www.zhihu.com/question/35931586/answer/206258333"

header = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.104 Safari/537.36'}

page=requests.get(url,headers=header) #读取网址

soup=BeautifulSoup(page.text,'lxml') #解析地址

link_list=soup.select("div[class='RichContent-inner'] span img")[::2]

#使用CSS选择器提取图片地址所在节点

os.makedirs("D:/Python/Image/zhihu0807")

os.chdir('D:/Python/Image/zhihu0807')

for link in link_list:

mylink=link.get('data-original') #使用get方法提取图片地址：

name=re.findall(r"v2-.*?.jpg",mylink)[0] #匹配图片名称

urllib.request.urlretrieve(mylink,name) #下载

完整代码：

R语言版：

library(rvest)

library(downloader)

url

link% html_nodes("div.RichContent-inner>span")%>%html_nodes("img")%>%html_attr("data-original")%>%na.omit

link

Name

dir.create("D:/R/Image/zhihu/zhihu0807") #建立存储文件夹

setwd("D:/R/Image/zhihu/zhihu0807") #锁定临时目录

for(i in 1:length(link)){

download(link[i],Name[i], mode = "wb")

} #下载过程：

Python版：

import requests

from bs4 import BeautifulSoup

import os

import re

import urllib

url="https://www.zhihu.com/question/35931586/answer/206258333"

header = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.104 Safari/537.36'}

page=requests.get(url,headers=header)

soup=BeautifulSoup(page.text,'lxml')

link_list=soup.select("div[class='RichContent-inner'] span img")[::2]

os.makedirs("D:/Python/Image/zhihu0807")

os.chdir('D:/Python/Image/zhihu0807')

for link in link_list:

mylink=link.get('data-original')

name=re.findall(r"v2-.*?.jpg",mylink)[0]

urllib.request.urlretrieve(mylink,name)

本文转自：数据小魔方

作者| 图文来自网络、如涉及版权问题，请联系我们以便处理。文章内容纯属作者个人观点，不代表本网观点。

编辑| 老猫

读书吧| QQ群：362276219返回搜狐，查看更多

责任编辑：

weixin_39622710

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。