使用spyder编写爬虫_CodingPark编程公园

最新推荐文章于 2024-07-12 17:37:08 发布

TEAM-AG

最新推荐文章于 2024-07-12 17:37:08 发布

阅读量1.5w

点赞数 2

分类专栏：大数据爬虫文章标签： spyder

版权由TEAM-AG团队所有

本文链接：https://blog.csdn.net/weixin_38411989/article/details/106025837

版权

本文通过Anaconda的Spyder IDE详细介绍了如何编写爬虫，包括准备工作、注意事项及完整代码示例，帮助读者掌握爬虫开发的基本步骤和常见问题解决方法。

摘要由CSDN通过智能技术生成

文章介绍

本文主要讲述了利用Anaconda spyder进行爬虫编写
在这里插入图片描述

使用spyder编写爬虫

在这里插入图片描述

准备工作

这次我们使用 heartbeat -> cid

在这里插入图片描述

我们拿到cid之后就可以去检查一下是否可以获取弹幕了。获取的固定xml格式是：

 https://comment.bilibili.com/视频的cid.xml

例如在这里我们的页面就是：

'https://comment.bilibili.com/94198756.xml'

我们把这个链接用网页的方式打开，就能看到如下内容：
在这里插入图片描述
这样我们就确定可以爬取了

需要注意的坑

1
每行脚本按 command + 回车 —> 执行
⚠️每行都需执行一次
在这里插入图片描述

2
可以不写print语句
而选取所要print的部分进行 ** command + 回车 —> 执行** 输出
在这里插入图片描述

3
终端输出信息不完全
在这里插入图片描述

pd.set_option(‘display.max_rows’,n)将看不到的行显示完整

import numpy as np
import pandas as pd
pd.set_option('display.max_columns',10)
pd.set_option('display.max_rows',100)			#设置最大可见100行
df=pd.DataFrame(np.random.rand(100,10))
df.head(100)

pd.set_option(‘display.max_columns’,n)将看不到的列显示完整

import numpy as np
import pandas as pd
pd.set_option('display.max_columns',10)			 #给最大列设置为10列
df=pd.DataFrame(np.random.rand(2,10))
df.head()

完整代码(基础功能)

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
Created on Sat May  9 17:34:

最低0.47元/天解锁文章

TEAM-AG

关注

2
点赞
踩
22

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录