火车头网页数据爬虫

最新推荐文章于 2024-07-22 17:42:37 发布

qq_41627642

最新推荐文章于 2024-07-22 17:42:37 发布

阅读量3.1k

点赞数

分类专栏：数据爬虫文章标签：数据分析

本文链接：https://blog.csdn.net/qq_41627642/article/details/106652056

版权

免费课程

火车头采集器使用教程(入门)
基本数据爬取攻略及全网页信息爬取方法

1、火车头数据爬取（基本数据爬取攻略）

打开链家二手房网址，进入网址https://xz.lianjia.com/ershoufang/pg2/，看到有很多房源信息，末尾有
在这里插入图片描述
说明这是一个一级网址，只需要将pg2这里变为参数就可以访问所有网页信息。
随便打开一个房源https://xz.lianjia.com/ershoufang/103109436477.html网址，可以看到房源的具体信息，我们只需要将103109436477这部分进行参数，就可以访问所有房源具体信息。这是一个二级网页
在这里插入图片描述

1、采集网址规则

1新建分组，然后新建任务（此次任务名为class1_链家二手房）。
2、添加起始网址，选择批量多页，并且对于页数进行了参数化*
在这里插入图片描述

3、添加二级网址

4、Cookie进行反爬虫，点击浏览器登陆获取，输入一级网址，点击确定。

在这里插入图片描述

2、采集内容规则

在某个一个房源信息的网页右键点击查看房源源代码和检查。
在检查网页，点击箭头。
在这里插入图片描述
在查看房源源代码查询是否是唯一关键字
添加标题：uprice,添加开始字符串和结束字符串。对于有些字符可以使用添加Html标签过滤。对于一写文字有空行可以使用内容替换，最好替换为/。

3、发布内容设置

在这里插入图片描述
默认的模板信息。
name,price,uprice,room,info,Lon,Lat
[标签:name],[标签:price],[标签:uprice],[标签:room],[标签:info],[标签:Lon],[标签:Lat]
将文件格式改为

4、对数据进行分列和数据清洗（采用Righth函数）

在这里插入图片描述

2、全网页爬取（全网页信息爬取方法）

1、导出来的一级url1

https://xz.58.com/jiedacqj/
https://xz.58.com/jiashijl/
https://xz.58.com/yagecqj/
https://xz.58.com/aliulcqj/
https://xz.58.com/pasatecqj/
https://xz.58.com/kaimeiruicqj/
https://xz.58.com/baomawuxicqj/
https://xz.58.com/mazidaliucqj/
https://xz.58.com/kaluolacqj/
https://xz.58.com/aodesaicqj/
https://xz.58.com/hanlandacqj/
https://xz.58.com/huangguancqj/
https://xz.58.com/maitengcqj/
https://xz.58.com/ruizhicqj/
https://xz.58.com/feiducqj/
https://xz.58.com/biekeglcqj/
https://xz.58.com/sangtanacqj/
https://xz.58.com/asilcqj/
https://xz.58.com/sutengcqj/
https://xz.58.com/bentiancrvcqj/

2、加载导出来的url1去获取二级网页

3、 python语言数据爬虫

1、爬取的网页：http://www.pm25.in/，主要爬取的是PM2.5的数据

在这里插入图片描述

2、抓取城市网页数据

import pandas as pd
from  lxml import etree
import requests as re

url=re.get('http://www.pm25.in/').text   #1、访问主网页，通过text属性将源代码提取出来
#print(url)
url=etree.HTML(url)#实例化url
data=url.xpath('//div[@class="all"]//a/@href')#div采用[]  #2、这一步主要是为了获取城市网址

在这里插入图片描述
data数据：
[’/abazhou’, ‘/akesudiqu’, ‘/alashanmeng’, ‘/aletaidiqu’, ‘/alidiqu’, ‘/ankang’, ‘/anqing’, ‘/anshan’, ‘/anshun’, ‘/anyang’, ‘/baicheng’, ‘/baise’, ‘/baishan’, ‘/baiyin’, ‘/baoding’, ‘/baoji’, ‘/baoshan’, ‘/baotou’, ‘/bayannaoer’, ‘/bazhong’, ‘/beihai’, ‘/beijing’, ‘/bengbu’, ‘/benxi’, ‘/bijie’, ‘/binzhou’, ‘/boertala’, ‘/bozhou’, ‘/cangzhou’, ‘/changchun’, ‘/changde’, ‘/changdou’, ‘/changdudiqu’, ‘/changjizhou’, ‘/changsha’, ‘/changshu’, ‘/changzhi’, ‘/changzhou’, ‘/chaoyang’, ‘/chaozhou’, ‘/chengde’, ‘/chengdu’, ‘/chenzhou’, ‘/chifeng’, ‘/chizhou’, ‘/chongqing’, ‘/chongzuo’, ‘/chuxiongzhou’, ‘/chuzhou’, ‘/dalian’, ‘/dalizhou’, ‘/dandong’, ‘/daqing’, ‘/datong’, ‘/daxinganlingde’, ‘/daxinganlingdiqu’, ‘/dazhou’, ‘/dehongzhou’, ‘/deyang’, ‘/dezhou’, ‘/dingxi’, ’

3、定位到每个城市空气质量数据

for city in data:
    ur2=re.get('http://www.pm25.in/'+city).text
    ur2=etree.HTML(ur2)#实例化url
    data=ur2.xpath('/

最低0.47元/天解锁文章

qq_41627642

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

火车头网页数据爬虫

免费课程

1、火车头数据爬取（基本数据爬取攻略）

1、采集网址规则

2、采集内容规则

3、发布内容设置

4、对数据进行分列和数据清洗（采用Righth函数）

2、 全网页爬取（全网页信息爬取方法）

1、导出来的一级url1

2、加载导出来的url1去获取二级网页

3、 python语言数据爬虫

1、爬取的网页：http://www.pm25.in/，主要爬取的是PM2.5的数据

2、抓取城市网页数据

3、定位到每个城市空气质量数据

2、全网页爬取（全网页信息爬取方法）