前段时间项目临时需要做一个数据爬虫,因为我不会用python,真tmd尴尬,就用golang来写,最后我还tmd没有用爬虫框架,哎,接下来写写一下做这个爬虫中使用到的一些技术,因为时间紧张,所以要是中间有问题请大佬指正。
这是一个公众号爬虫,主要是为了爬取头条号,熊掌号,大鱼号等公众号。
对于一般的使用API的公众号其实是要稍微简单的,我们只需要模拟请求他的API就可以了,但是对于熊掌号,大鱼号这种,因为他是没有直接的入口的(反正我暂时没有找到,要是大佬有找到的,恳请大佬不吝赐教)。然后就是对于头条号这种了,因为头条号是采用接口的形式,**但是** ,他是有接口签名的,并且这个签名还贼tmd难,所以我们需要直接调用浏览器中的命令来获取签名。
要是文章中有什么地方说错了,请大佬赐教,感谢
1.一些基本的概念:
chrome-Headless: 顾明思议,是一种无浏览器窗口的模式,是Google 自己出的无头浏览器模式, Google 针对 Chrome 浏览器 59版 新增加的一种模式,可以让你不打开UI界面的情况下使用 Chrome 浏览器
ChromeDriver :WebDriver是一个开源工具,用于在许多浏览器上自动测试webapps。 ChromeDriver 是 google 为网站开发人员提供的自动化测试接口,它是 selenium2 和 chrome浏览器 进行通信的桥梁。具体webDriver和ChromeDriver的工作流程请移步。
后面我还会再在代码里仔细讲一下selenium和webDriver,ChromeDriver这三者之间的工作流程
废话不多说,开始干:
2.安装ChromeDriver
centos上安装:
在/etc/yum.repos.d/
下编辑文件 google-chrome.repo
[google-chrome]
name=google-chrome
baseur