文章介绍
本文主要讲述了利用Anaconda spyder进行爬虫编写
使用spyder编写爬虫
准备工作
这次我们使用 heartbeat -> cid
我们拿到cid之后就可以去检查一下是否可以获取弹幕了。获取的固定xml格式是:
https://comment.bilibili.com/视频的cid.xml
例如在这里我们的页面就是:
'https://comment.bilibili.com/94198756.xml'
我们把这个链接用网页的方式打开,就能看到如下内容:
这样我们就确定可以爬取了
需要注意的坑
1
每行脚本按 command + 回车 —> 执行
⚠️每行都需执行一次
2
可以不写print语句
而选取所要print的部分进行 ** command + 回车 —> 执行** 输出
3
终端输出信息不完全
pd.set_option(‘display.max_rows’,n)将看不到的行显示完整
import numpy as np
import pandas as pd
pd.set_option('display.max_columns',10)
pd.set_option('display.max_rows',100) #设置最大可见100行
df=pd.DataFrame(np.random.rand(100,10))
df.head(100)
pd.set_option(‘display.max_columns’,n)将看不到的列显示完整
import numpy as np
import pandas as pd
pd.set_option('display.max_columns',10) #给最大列设置为10列
df=pd.DataFrame(np.random.rand(2,10))
df.head()
完整代码(基础功能)
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
Created on Sat May 9 17:34: