【Python爬虫】requests库爬取大学生创业网（AJAX异步更新网页）

最新推荐文章于 2024-08-08 14:28:23 发布

Cy丶

最新推荐文章于 2024-08-08 14:28:23 发布

阅读量1k

点赞数 1

分类专栏：实战练习文章标签： python

本文链接：https://blog.csdn.net/qq_43534494/article/details/108038562

版权

本文介绍了使用Python的requests库来爬取需要登录的大学生创业网数据。通过分析页面，发现网站采用AJAX异步更新内容。通过观察网络请求，找到获取每一页数据的URL规律，并利用session处理Cookie，实现翻页和数据提取。最后，计划将数据写入Excel并考虑使用多线程提高爬取效率。

摘要由CSDN通过智能技术生成

【Python爬虫】requests库爬取大学生创业网

上个月学习了用Python的requests库爬虫，前几天有个朋友请我帮忙爬取下大学生创业网里的项目做一个调查分析，我想刚好可以复习下爬虫，所以研究了一下这个网站。
网站地址:https://cy.ncss.cn/search/projects
在这里插入图片描述
进入网站，发现需要登录才能显示页面，于是在草稿本上标记一个注意点（我习惯边分析边在草稿本上写）——发送请求的时候，请求头要带上Cookie,然后使用session去get
登录以后可以看到
我们要的数据内容都在页面上了，项目，项目描述，所属领域，所在地等等
于是F12 打开开发者工具，我们要的数据显而易见
在这里插入图片描述
然而我点击第二页进行查看，发现网页是不跳转的，而内容却刷新了
猜测这个网页是AJAX异步传输的页面，点开Network进行查看，证实了猜测
根据分析可以得到

我们所需的，每一页的内容都可在上图url中获取
在这里插入图片描述
我们只需更改url的pageIndex参数即可获取每一页的数据
思路有了，于是可以开始写程序
理清爬虫步骤：
1）写请求头 header和url
2）获取页面
3）提取数据，翻页,写入excel中

class Spider(object):
	def __init__(self):
		self.url = "https://cy.ncss.cn/search/projectlist?name=&industryCode=&wasBindUniTechnology=&investStageCode=&provinceCode=&pageIndex={}&pageSize=15&"


    def Fake_UA(self):
        """返回一个fake header头"""
        self.ua = UserAgent(use_cache_server=False)
        self.header = {
   'User-Agent':self.ua.random,
                  'Cookie': '',
                  'Referer': 'https://cy.ncss.cn/search/projects'
                  }
        return self.header

    def get_write_name(self,mysheet):
        for page in range(0,10,1):
            wp_session = requests.session()
            wp_session.headers =

最低0.47元/天解锁文章

Cy丶

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
2
评论
【Python爬虫】requests库爬取大学生创业网（AJAX异步更新网页）

【Python爬虫】requests库爬取大学生创业网上个月学习了用Python的requests库爬虫，前几天有个朋友请我帮忙爬取下大学生创业网里的项目做一个调查分析，我想刚好可以复习下爬虫，所以研究了一下这个网站。网站地址:https://cy.ncss.cn/search/projects进入网站，发现需要登录才能显示页面，于是在草稿本上标记一个注意点（我习惯边分析边在草稿本上写）——发送请求的时候，请求头要带上Cookie,然后使用session去get登录以后可以看到我们要的数据内容
复制链接

扫一扫