主题缘由
由于app首页需要展示B端发布的需求,但是一开始我们服务端是没有任何需求展示的,所以想到了爬虫,很早的时候想要抓取信息分类网站的信息,一直未动手,最近迫不得已,直接进入正题。
1.分析所需网页数据
这里我们用某服务众包网站举例:url=http://www.zbj.com/ydyykf/tp1.html, 打开开发者工具,这里tp%d对应的是可递增的页数,分析如下图所示:
Paste_Image.png
从html可以看出我们的重点就在table列表,我们就来获取3个字段:价格,项目名称,项目简介。我们继续深入挖掘,找到对应3个字段的html元素,如下图:
Paste_Image.png
ok,网页数据我们已经分析完了,可以开始爬了。
2.爬数据
说到爬虫,最容易想到的就是python,BeautifulSoup是python的一个库,最主要的功能是从网页抓取数据,形成一个类似树状结构的文档。
安装BeautifulSoup,执行:pip install BeautifulSoup
主要代码如下:
# !/bin/env python