Web Scraper爬取信息

前期条件:安装web scraper插件;

安装好之后,打开网页调试模式,F12 会看到多出来Web Scraper;

 实践:

以豆瓣网为例:

爬取租房信息:

Type有很多类型:

 这里选择是表格,需要看网页具体是什么来排列。

选择器,selector,这里需要自己多尝试几次,选好父节点,需要抓取界面的全部内容。

后面选择的节点都是在这个父节点之下的。

实例:抓取当前界面的所有标题信息。

 确认之后,如下图所示。

 设置完成后,该界面的内容已经选择完成了。

 选择Datapreview,看抓取内容是否符合预期。

如果没有内容,大部分是选择选择器Selector和选择的类型Type问题,需要自己尝试一下。

备注:因为这里是表格,所以直接选择表格抓取,内容就全部抓取下来,其他需要选择元素,element,需要再选择子节点。

-------------------

如果要抓取所有界面的内容,需要创建Link关系,选择Next Page.

接着,是抓取第二页的内容 ,这里需要 进入到第2页,这里是一个链接 类型。

创建链接Link 类型。

 选择具体内容,这里参照上面即可。

 选择每条信息背后的正文内容。

 

完成Selector后,开始抓取数据,默认时间2000ms。

 

 

等待抓取:

抓取完,导出数据即可。

 

 

完成之后,可以看一下图谱链接关系。

Selector  Graph

 先模拟一下,人工操作,

1、选择1条租房信息,这里是一个链接,会跳转到另一个界面,这里是这条租房信息的详细信息。

2、租房信息有1,2,3,...页,需要Next Page;

爬虫操作,也是模拟人工操作,需要创建一样的逻辑;

对比这个小组第一页与最后一页:

www.douban.com/group/605557/discussion?start=0

第1页:

深圳南山西丽,科技园租房交流群小组

第2页:

深圳南山西丽,科技园租房交流群小组

第500页:

登录豆瓣

可以找到规律,每1页都是25条内容,但有的页面可能不是,最新的都是,太老的创建的人少,就每保留每页25条。

抓取内容时,可以关注一下链接的关系及规律。研究背后的逻辑。

参考内容: 

不会 Python 没关系,手把手教你用 web scraper 抓取豆瓣电影 top 250 和 b 站排行榜..._sushengbuhuo的博客-CSDN博客

Web Scraper 初级用法——Web Scraper 初尝--抓取豆瓣高分电影 | 简易数据分析 04_Bingo-CSDN博客

以上只是个人所用,如有侵权请联系,立删。

好的,以下是关于使用 Pythonweb scraper 爬取二级网页的简单教程: 1. 导入必要的库 在 Python 中,我们要使用一些第三方库来实现网页爬取。其中,最为常用的包括 requests 和 BeautifulSoup。前者用于获取网页源代码,后者用于解析 HTML 代码。 ```python import requests from bs4 import BeautifulSoup ``` 2. 获取二级网页 要获取二级网页的内容,我们首先要获取主网页的链接,然后使用 requests 库获取其源代码,进而找到所有二级网页的链接。我们可以使用 BeautifulSoup 库解析 HTML 代码,并使用 find_all 方法找到所有 a 标签中的 href 属性,即所有链接。 ```python # 获取主网页的链接 url = "https://example.com" response = requests.get(url) soup = BeautifulSoup(response.content, "html.parser") # 获取所有二级网页的链接 links = [] for link in soup.find_all("a"): href = link.get("href") if href.startswith("https://example.com/second-level"): links.append(href) ``` 这里我们假设所有二级链接都以 "https://example.com/second-level" 开头。 3. 爬取二级网页的内容 现在我们已经得到了所有二级网页的链接,接下来就可以依次爬取它们的内容了。和获取主网页的源代码类似,我们可以使用 requests 库获取每个二级网页的源代码,然后使用 BeautifulSoup 库解析 HTML 代码,找到我们要的内容。 ```python # 爬取所有二级网页的内容 for link in links: response = requests.get(link) soup = BeautifulSoup(response.content, "html.parser") # 这里可以根据要找到要的内容 ... ``` 这里要注意的是,每个二级网页的 HTML 代码可能会有所不同。因此,我们要根据实际情况找到我们要的内容。 4. 完整代码 以下是一个完整的示例程序,用于爬取某个网站中以 "https://example.com/second-level" 开头的所有二级网页的标题和正文: ```python import requests from bs4 import BeautifulSoup # 获取主网页的链接 url = "https://example.com" response = requests.get(url) soup = BeautifulSoup(response.content, "html.parser") # 获取所有二级网页的链接 links = [] for link in soup.find_all("a"): href = link.get("href") if href.startswith("https://example.com/second-level"): links.append(href) # 爬取所有二级网页的内容 for link in links: response = requests.get(link) soup = BeautifulSoup(response.content, "html.parser") # 找到标题和正文 title = soup.find("h1").text content = soup.find("div", class_="content").text # 输出结果 print("Title:", title) print("Content:", content) ``` 这段代码可以根据实际要进行修改。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值