到目前为止,能使用python写一点简单的程序了,本次的任务是爬取今日头条的文章信息。
大致涉及的知识点:json数据格式,浏览器插件jsonView,浏览器开发者模式,html基础,http代理,http协议
首先我们需要模拟浏览器参数,就是访问网页的客户端的大致信息。
然后封装请求参数:包含url、user-agent和http代理等
最后将爬取到的信息写入文本文件和excel中
代码如下:
"""
注意:dump和load是操作文件的,dumps和loads是json和字符串之间相互转换的
"""
import pathlib
import random
import requests
import time
import json
import pandas
# 模拟浏览器参数
def get_user_agent():
path = pathlib.Path("browsers.json")
if not path.exists():
url = 'http://fake-useragent.herokuapp.com/browsers/0.1.8'
response = requests.get(url)
with open("browsers.json", "w") as f:
json.dump(response.text, f)
with open("b