Python 爬虫瞎玩系列（1） —— Bilibili的前100个上古巨坟考古

最新推荐文章于 2024-09-03 11:00:25 发布

JayRoxis

最新推荐文章于 2024-09-03 11:00:25 发布

阅读量4.9k

点赞数 3

分类专栏： python Python爬虫文章标签：爬虫 python 零基础学python 零基础学爬虫爬虫实战

本文链接：https://blog.csdn.net/JayRoxis/article/details/72729414

版权

本文是Python爬虫系列的第一篇，通过解析Bilibili的前100个视频，讲解爬虫的基础知识。作者强调Python爬虫并不难，通过学习可以轻松掌握。文中介绍了爬虫的基本概念，以及Python第三方库requests和chardet的作用，并给出了代码实例，解释了如何处理编码问题和请求头（header）的重要性。

摘要由CSDN通过智能技术生成

Python 爬虫瞎玩系列（1） —— Bilibili的前100个上古巨坟考古

现在是2017年5月25日13:29:56，嗯，神志正常。

Python爬虫很难？不存在的。
只要学习我的课程《Python爬虫从瞎玩到发疯》就可以快速掌握。

学过我的课程的同学都说好，现在我后面就有一位呢jgsofjgidjhdfghjdghjd;hjg;fdhjdf;hijd;jho;ghjldcjgj jhj jhdljodijyhodjihoy
gxtjhdoijhihjdoihjxjjhpoihjc;pijhophj;j;khgojkppk’hj

“同学们，今天我们来上Python的爬虫课，大家起立”

“老师好”

“好，可以坐下了。”

“谁知道爬虫是什么啊”

“老师！我知道，爬虫就是无聊去不停骚扰别人的服务器。”

“啪啪啪，谁说的大实话”

上课

同学们，今天的课呢，就是看下面这段代码。

# -*- coding:utf-8 -*-
# 查询点赞和回复提醒：http://message.bilibili.com/api/notify/query.notify.count.do
# 查询标签："tag_name":"灵异", http://api.bilibili.com/x/tag/archive/tags?aid=
# 查询UP主相关：http://api.bilibili.com/cardrich?mid=
# 查询UP主的作品相关：http://api.bilibili.com/vipinfo/default?mid=

# import urllib
# import urllib2
# import chardet

import requests
import re

import sys
reload(sys)                              
sys.setdefaultencoding('utf-8')


# requests工具箱请求服务器
def getHTMLText(url, agent):
    try:
        headers = {
  'User-Agent': agent}
        r = requests.get(url, timeout=30, headers=headers)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return '获取网页信息失败'


# Headers查询头
agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36' \
       ' (KHTML, like Gecko) Chrome/50.0.2661.102 ' \
       'Safari/537.36 '
Query_Amount = 100                # 待查询的视频个数，设为100查前100个


f = open('test.txt', 'w')         # 打开待写入的txt文件
# sys.stdout = f                    # 将缓冲区写入，如果需要输出到test.txt中取消注释

for numAv