元旦要来了,考虑好要去哪里旅游了吗?Python爬取最全攻略!

前言

         2020还有最后几天就就结束了,您考虑好2021的第一天去哪里旅游了吗,不如来看看使用Python爬取最全攻略!受益的朋友给个三连。 转发请求声明。

一、实现思路

首先我们爬取的网站是一个穷游网站: https://place.qyer.com/
爬取页面官网
我这里为大家编写了2个方式第一个就是获取中国范围内的旅游景点,和省级的旅游景点。我这还使用了词汇分析给大家进行展示。

  1. 分析页面我要我们要爬取的页面URL
  2. 通过requests 发送请求获取数据
  3. 解析我们想要的数据,剔除没用的数据
  4. 将数据保存到CSV文件
  5. 使用词汇分析生成图片

二、代码实现

导入依赖包

import pypinyin
import requests
import parsel
import csv
from concurrent.futures import ThreadPoolExecutor
import jieba
from wordcloud import WordCloud

解析中国的运行代码

nameList=[]
def China(num):
  url="https://place.qyer.com/china/citylist-0-0-"+num
  html= requests.get(url,headers=headers)
  text=html.text
  dom=parsel.Selector(text)
  lilist=dom.xpath("//*[@class='plcCitylist']/li")
  print("正在爬取第%s页"%num)
  for list in lilist:
      # 获取name
      travel_name=list.xpath(".//h3/a/text()").get()
      # 获取去过的人数
      travel_number =list.xpath(".//p[@class='beento']/text()").get()
      # 获取图片地址
      travel_image=list.xpath(".//p[@class='pics']/a/img/@src").get()
      # 获取介绍
      travel_hot=list.xpath(".//p[@class='pois']/a/text()").getall()
      # 去掉空格
      travel_hot=[hot.strip() for hot in travel_hot]
      # 转换为字符串
      travel_hot='.'.join(travel_hot)
      # 获取城市url
      travel_url ="https:"+list.xpath(".//h3/a/@href").get()
      # 数据保存
      nameList.append(".".join(travel_name))
      with open('穷游中国数据.csv',mode='a',encoding='utf-8',newline='') as f:
          csv_writer=csv.writer(f)
          csv_writer.writerow([travel_name,travel_number,travel_hot,travel_url,travel_image])
  print("爬取完成第%s页"%num)

运行结果图
爬取中国的运行结果
生成的词汇图
中国词汇图
爬取省级的数据
         根据页面的解析我们可以发现我们只需要我们根据要爬取的内容使用拼音的方式即可跳转页面。
页面解析
运行结果
省运行结果图
词汇分析
词汇分析

总结

         好了到这里我们就成功的完成对穷游这个页面的爬取,分别完整了二个指标的爬取。获取源码 微信搜索公众号【大数据老哥】回复【python源码】即可获取。2020所剩无几,2021继续加油ヾ(◍°∇°◍)ノ゙,我们下期见~~~!

微信公众号搜索【大数据老哥】可以获取 200个为你定制的简历模板、大数据面试题、企业面试题…等等。

资源获取

  • 24
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 21
    评论
评论 21
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大数据老哥

欢迎支持

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值