爬虫
文章平均质量分 96
风义
这个作者很懒,什么都没留下…
展开
-
实验2动态渲染网页的内容抓取
实验2动态渲染网页的内容抓取 一 实验目的 掌握使用Scrapy爬虫工具编写爬虫程序的基本思路; 掌握抓取列表+详情+AJAX的动态组合页面的方法 二 实验要求 抓取目标。可以选择以下网站作为抓取目标,也可以寻找自己感兴趣的抓取目标: 1)“京东商城”中某一类产品,如手机类产品页面入口为:http://list.jd.com/list.html?cat=9987,653,655,笔记本电脑类产品页面入口为:https://list.jd.com/list.html?cat=670,671,672。产品原创 2021-11-10 09:00:32 · 766 阅读 · 0 评论 -
数据采集实验-爬取李开复博客并保存在csv和mongodb中
文章目录实验目的实验要求实验程序及运行结果实验内容概述代码解说翻页:通过回调函数实现翻页。显示页数:利用response.xpath获得当前页数。爬取目录页:标题、时间、链接。爬取动态数据:阅读数,喜欢数,评论数,转发数,收藏数。爬取详情页:标题,时间,分类,标签。处理时间和标题数据:def chuli(item)。数据存入csv和mongodb:不同item存入不同文件、表。绘制进度条:利用sys绘制(伪)进度条。运行结果:控制台csv文件mongodb数据库实验总结实验中遇到的部分错误与解决方法:py.原创 2021-11-04 22:25:25 · 1092 阅读 · 0 评论