Python 爬虫瞎玩系列(1) —— Bilibili的前100个上古巨坟考古
现在是2017年5月25日13:29:56,嗯,神志正常。
Python爬虫很难?不存在的。
只要学习我的课程《Python爬虫从瞎玩到发疯》就可以快速掌握。
学过我的课程的同学都说好,现在我后面就有一位呢jgsofjgidjhdfghjdghjd;hjg;fdhjdf;hijd;jho;ghjldcjgj jhj jhdljodijyhodjihoy
gxtjhdoijhihjdoihjxjjhpoihjc;pijhophj;j;khgojkppk’hj
- “同学们,今天我们来上Python的爬虫课,大家起立”
- “老师好”
- “好,可以坐下了。”
- “谁知道爬虫是什么啊”
- “老师!我知道,爬虫就是无聊去不停骚扰别人的服务器。”
- “啪啪啪,谁说的大实话”
上课
同学们,今天的课呢,就是看下面这段代码。
# -*- coding:utf-8 -*-
# 查询点赞和回复提醒:http://message.bilibili.com/api/notify/query.notify.count.do
# 查询标签:"tag_name":"灵异", http://api.bilibili.com/x/tag/archive/tags?aid=
# 查询UP主相关:http://api.bilibili.com/cardrich?mid=
# 查询UP主的作品相关:http://api.bilibili.com/vipinfo/default?mid=
# import urllib
# import urllib2
# import chardet
import requests
import re
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
# requests工具箱请求服务器
def getHTMLText(url, agent):
try:
headers = {
'User-Agent': agent}
r = requests.get(url, timeout=30, headers=headers)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return '获取网页信息失败'
# Headers查询头
agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36' \
' (KHTML, like Gecko) Chrome/50.0.2661.102 ' \
'Safari/537.36 '
Query_Amount = 100 # 待查询的视频个数,设为100查前100个
f = open('test.txt', 'w') # 打开待写入的txt文件
# sys.stdout = f # 将缓冲区写入,如果需要输出到test.txt中取消注释
for numAv