前言
投一把青叶,感叹岁月如梦犹在,注一汪清泉,寻味浮生千姿百态。
说一下为啥我突然想到写Python来鉴茶这种小案例吧!因为今天领导把我喊到办公室,一起喝了两杯茶,但是我又不是那种喜欢喝茶的,对茶也没有研究过!所以今天特意来出一个教程,也是能教大家学Python也能防止没有这方面的知识点,至少一些喝茶最常见的礼仪得自己清楚,不至于在以后出丑嘛!
Start
阅读本文及源码,可以和小编一起学到 xpath 表达式爬取数据,多进程爬取,pandas 基本操作,pyecharts 可视化,stylecloud 词云,文本余弦相似度相似度,KMeans,关键词提取算法:TextRank,TF-IDF,LDA 主题模型。
源码获取在文末
小编找到一个和茶有关网站:
https://chaping.chayu.com/?bid=1
数据获取
从首页进入茶评,可以看到所有茶的基本信息,结果有多页,获取所有的基本信息包括标题,评分,品牌,产地,茶类,详细链接,id: