Python 爬虫瞎玩系列(1) —— Bilibili的前100个上古巨坟考古

本文是Python爬虫系列的第一篇,通过解析Bilibili的前100个视频,讲解爬虫的基础知识。作者强调Python爬虫并不难,通过学习可以轻松掌握。文中介绍了爬虫的基本概念,以及Python第三方库requests和chardet的作用,并给出了代码实例,解释了如何处理编码问题和请求头(header)的重要性。
摘要由CSDN通过智能技术生成

Python 爬虫瞎玩系列(1) —— Bilibili的前100个上古巨坟考古

现在是2017年5月25日13:29:56,嗯,神志正常。


Python爬虫很难?不存在的。
只要学习我的课程《Python爬虫从瞎玩到发疯》就可以快速掌握。

学过我的课程的同学都说好,现在我后面就有一位呢jgsofjgidjhdfghjdghjd;hjg;fdhjdf;hijd;jho;ghjldcjgj jhj jhdljodijyhodjihoy
gxtjhdoijhihjdoihjxjjhpoihjc;pijhophj;j;khgojkppk’hj

  • “同学们,今天我们来上Python的爬虫课,大家起立”
  • “老师好”
  • “好,可以坐下了。”
  • “谁知道爬虫是什么啊”
  • “老师!我知道,爬虫就是无聊去不停骚扰别人的服务器。”
  • “啪啪啪,谁说的大实话”

上课

同学们,今天的课呢,就是看下面这段代码。

# -*- coding:utf-8 -*-
# 查询点赞和回复提醒:http://message.bilibili.com/api/notify/query.notify.count.do
# 查询标签:"tag_name":"灵异", http://api.bilibili.com/x/tag/archive/tags?aid=
# 查询UP主相关:http://api.bilibili.com/cardrich?mid=
# 查询UP主的作品相关:http://api.bilibili.com/vipinfo/default?mid=

# import urllib
# import urllib2
# import chardet

import requests
import re

import sys
reload(sys)                              
sys.setdefaultencoding('utf-8')


# requests工具箱请求服务器
def getHTMLText(url, agent):
    try:
        headers = {
  'User-Agent': agent}
        r = requests.get(url, timeout=30, headers=headers)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return '获取网页信息失败'


# Headers查询头
agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36' \
       ' (KHTML, like Gecko) Chrome/50.0.2661.102 ' \
       'Safari/537.36 '
Query_Amount = 100                # 待查询的视频个数,设为100查前100个


f = open('test.txt', 'w')         # 打开待写入的txt文件
# sys.stdout = f                    # 将缓冲区写入,如果需要输出到test.txt中取消注释

for numAv 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值