Python3 知乎回答爬取+数据文本分析——如何判断一个人是否喜欢你项目实战结论及步骤笔记

最新推荐文章于 2024-07-15 17:46:33 发布

小薄冲冲冲

最新推荐文章于 2024-07-15 17:46:33 发布

阅读量1.8k

点赞数 8

文章标签： mysql python 知乎网

本文链接：https://blog.csdn.net/bb123116/article/details/106789794

版权

实现思路及准备

 **实现思路**
   1.利用知乎爬取回答 存入数据库 
   2.从数据库提取数据 过滤清洗
   3.词频统计，文本分析，做词云图，得结论
  **准备：**
   Python3、Mysql8.0、mysqlworkbench
   所需库：pymysql、json、requests、jieba、re、wordcloud、

爬取知乎动态页面存入数据库

一、爬取

1.先点查看全部回答——F12——network——刷新页面——
在这里插入图片描述
2.点击一个文件——preview ——找到一个文件类似这样展开data里面有回答的就是（一般是answers开头的一个文件）——点旁边headers——复制它的Url

3.到浏览器中打开——修改offset= 这里就可以改变页数
然后就可以用requests库，对页面进行爬取了
在这里插入图片描述
这里记得加headers请求头否则会报错

二、存入

1.在workbench中创建表把answerer_name设置为主键，因为发现更改offset=后的页面会有许多重复回答在这里插入图片描述
29.30行的定位需要把页面代码（json格式）去百度在线格式化一下就可以找到定位的地方了
这里31行的sql语句是 replace into 且以answerer_name为主键避免重复输入
2.输出结果，这里一共爬了九百多条