免费课程
火车头采集器使用教程(入门)
基本数据爬取攻略及全网页信息爬取方法
1、火车头数据爬取(基本数据爬取攻略)
打开链家二手房网址,进入网址https://xz.lianjia.com/ershoufang/pg2/,看到有很多房源信息,末尾有
说明这是一个一级网址,只需要将pg2这里变为参数就可以访问所有网页信息。
随便打开一个房源https://xz.lianjia.com/ershoufang/103109436477.html网址,可以看到房源的具体信息,我们只需要将103109436477这部分进行参数,就可以访问所有房源具体信息。这是一个二级网页
1、采集网址规则
1新建分组,然后新建任务(此次任务名为class1_链家二手房)。
2、添加起始网址,选择批量多页,并且对于页数进行了参数化*
3、添加二级网址
4、Cookie进行反爬虫,点击浏览器登陆获取,输入一级网址,点击确定。
2、采集内容规则
在某个一个房源信息的网页右键点击查看房源源代码和检查。
在检查网页,点击箭头。
在查看房源源代码查询是否是唯一关键字
添加标题:uprice,添加开始字符串和结束字符串。对于有些字符可以使用添加Html标签过滤。对于一写文字有空行可以使用内容替换,最好替换为/。
3、发布内容设置
默认的模板信息。
name,price,uprice,room,info,Lon,Lat
[标签:name],[标签:price],[标签:uprice],[标签:room],[标签:info],[标签:Lon],[标签:Lat]
将文件格式改为
4、对数据进行分列和数据清洗(采用Righth函数)
2、 全网页爬取(全网页信息爬取方法)
1、导出来的一级url1
https://xz.58.com/jiedacqj/
https://xz.58.com/jiashijl/
https://xz.58.com/yagecqj/
https://xz.58.com/aliulcqj/
https://xz.58.com/pasatecqj/
https://xz.58.com/kaimeiruicqj/
https://xz.58.com/baomawuxicqj/
https://xz.58.com/mazidaliucqj/
https://xz.58.com/kaluolacqj/
https://xz.58.com/aodesaicqj/
https://xz.58.com/hanlandacqj/
https://xz.58.com/huangguancqj/
https://xz.58.com/maitengcqj/
https://xz.58.com/ruizhicqj/
https://xz.58.com/feiducqj/
https://xz.58.com/biekeglcqj/
https://xz.58.com/sangtanacqj/
https://xz.58.com/asilcqj/
https://xz.58.com/sutengcqj/
https://xz.58.com/bentiancrvcqj/
2、加载导出来的url1去获取二级网页
3、 python语言数据爬虫
1、爬取的网页:http://www.pm25.in/,主要爬取的是PM2.5的数据
2、抓取城市网页数据
import pandas as pd
from lxml import etree
import requests as re
url=re.get('http://www.pm25.in/').text #1、访问主网页,通过text属性将源代码提取出来
#print(url)
url=etree.HTML(url)#实例化url
data=url.xpath('//div[@class="all"]//a/@href')#div采用[] #2、这一步主要是为了获取城市网址
data数据:
[’/abazhou’, ‘/akesudiqu’, ‘/alashanmeng’, ‘/aletaidiqu’, ‘/alidiqu’, ‘/ankang’, ‘/anqing’, ‘/anshan’, ‘/anshun’, ‘/anyang’, ‘/baicheng’, ‘/baise’, ‘/baishan’, ‘/baiyin’, ‘/baoding’, ‘/baoji’, ‘/baoshan’, ‘/baotou’, ‘/bayannaoer’, ‘/bazhong’, ‘/beihai’, ‘/beijing’, ‘/bengbu’, ‘/benxi’, ‘/bijie’, ‘/binzhou’, ‘/boertala’, ‘/bozhou’, ‘/cangzhou’, ‘/changchun’, ‘/changde’, ‘/changdou’, ‘/changdudiqu’, ‘/changjizhou’, ‘/changsha’, ‘/changshu’, ‘/changzhi’, ‘/changzhou’, ‘/chaoyang’, ‘/chaozhou’, ‘/chengde’, ‘/chengdu’, ‘/chenzhou’, ‘/chifeng’, ‘/chizhou’, ‘/chongqing’, ‘/chongzuo’, ‘/chuxiongzhou’, ‘/chuzhou’, ‘/dalian’, ‘/dalizhou’, ‘/dandong’, ‘/daqing’, ‘/datong’, ‘/daxinganlingde’, ‘/daxinganlingdiqu’, ‘/dazhou’, ‘/dehongzhou’, ‘/deyang’, ‘/dezhou’, ‘/dingxi’, ’
3、定位到每个城市空气质量数据
for city in data:
ur2=re.get('http://www.pm25.in/'+city).text
ur2=etree.HTML(ur2)#实例化url
data=ur2.xpath('/