一、使用GooSeeker软件进行爬虫,它是进行读取大量数据的,都出来的数据是xml格式的,可以通过office excel将xml格式转化成表格形式。
1.爬虫取数据:1)先要在网页上搜索出来你要搜索的关键字的链接。 2)然后将链接输入到‘MS谋数台’的网址,进行规则设置:【1】‘命名主题’的主题为必写,自定义
【2】‘创建规则’新建父节点,例列表,然后右键新建的列表‘包容’--写‘标题’--高级选文本内容 ,同理同级下边可以加其他分类。然后在页面定位要取得的
数据 【3】勾选样例复制管理--在页面定位你的2条样例----此时可以测试看看数据是否取到 【4】爬虫路线--新建--勾选连贯抓取--勾选记号线索--在页面找到
所要使用的下一页的右键记号映射此时出现记号值,然后找到整个分页的div右键定位--》线索1,并输入目标主题名。 3)保存规则 4)爬数据
1.爬虫取数据:1)先要在网页上搜索出来你要搜索的关键字的链接。 2)然后将链接输入到‘MS谋数台’的网址,进行规则设置:【1】‘命名主题’的主题为必写,自定义
【2】‘创建规则’新建父节点,例列表,然后右键新建的列表‘包容’--写‘标题’--高级选文本内容 ,同理同级下边可以加其他分类。然后在页面定位要取得的
数据 【3】勾选样例复制管理--在页面定位你的2条样例----此时可以测试看看数据是否取到 【4】爬虫路线--新建--勾选连贯抓取--勾选记号线索--在页面找到
所要使用的下一页的右键记号映射此时出现记号值,然后找到整个分页的div右键定位--》线索1,并输入目标主题名。 3)保存规则 4)爬数据