![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spider
weixin_42292991
这个作者很懒,什么都没留下…
展开
-
多线程爬取猪八戒网站
此项目是使用多线程爬取猪八戒网址it类的所有公司信息猪八戒主页网址:https://guangzhou.zbj.com/我们要爬的是it这个大类的这10小类通过检查我们发现,所有的网址都是放在带有class=‘channel-service-grid clearfix’这个属性的div标签下面,我们可以通过使用lxml库以及xpath语法来获得所有小类的url这个函数代码如下:def get_categories_url(url): details...原创 2020-07-06 15:41:10 · 2401 阅读 · 0 评论 -
项目复盘---------爬取猪八戒网站
此项目是使用多线程爬取猪八戒网址it类的所有公司信息猪八戒主页网址:https://guangzhou.zbj.com/我们要爬的是it这个大类的这10小类通过检查我们发现,所有的网址都是放在带有class=‘channel-service-grid clearfix’这个属性的div标签下面,我们可以通过使用lxml库以及xpath语法来获得所有小类的url...原创 2019-01-15 20:35:22 · 2669 阅读 · 4 评论