在办公室跟同事争论谁的语言写爬虫比较优秀。我说php处理文本的能力很强大。然后跟python同事一人写了一段爬虫放在各自的阿里云服务器上。我的数据到一百多万条就被知乎拉黑。
一共四个php文件。一个sql的结构。
用到的技术:php、mysql、redis、shell脚本、linux的crontab功能。
shell脚本跟crontab功能是因为服务器内存太小需要销毁进程重新启动。
getuser.php文件:获取用户username。
zhihu.php文件:获取某个用户的详细信息。
user_sql.php文件:从redis取到用户信息存在mysql。
getoldmess.php文件:哪个用户的信息没爬取到补爬一下。
需要帮助的朋友加我qq:615742973。