北京这么大,景点这么多,当被媳妇儿问“下周带我妈去哪儿玩?”屏幕前的你是不是也慌得一比???
一番冥思苦想之后,作为Power BI深度用户的小编我自然又绕了回来–能不能用Power BI解决这个问题呢?
又一番冥思苦想之后,小编认为:可以!
且看下文如何分解:
Step1:网页分析
分析去某儿网的网点结构,决定爬取哪些信息,景点名称,星级,排名,游客评论数量,攻略数量,经纬度(html里面有)
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kaWPZEf8-1587549098651)(https://pbihub.cn/uploads/images/202004/14/125/kED6d65vK6.png)]
Step2:编写爬虫代码
用requests返回网页信息,再用BeautifulSoup解析网页(考虑尾页很多景点星级数据都为0,只取了前二十页)
import requests
import pandas as pd
from bs4 import BeautifulSoup
import numpy as np
name,lat,lng,star,strategy,comment=[ ],[ ],[ ],[ ],[ ],[ ]
for i in range(1,21): #只取前20页